2011-12-12 4 views

답변

9

시도 crawler4j. 방문 할 URL과 크롤링 된 각 페이지에서 수행 할 작업을 제어하는 ​​간단한 인터페이스를 구현하기 만하면됩니다.

+0

이 크롤러를 사용하여 HTTPS 웹 사이트를 크롤링하는 데 문제가 있습니다 ('site 응답하지 못했습니다. 브라우저에서 잘 열리는 동안 등) – ed22

5

(자바) 내 생각 엔 NutchHeritrix으로 생각합니다. 더 나은 답변을 얻으려면 무엇이 필요한지 지정해야합니다.

관련 문제