2013-08-05 10 views
0

필자는 다양한 크롤러를 검색하여보고있었습니다. 그러나 나는 어느 쪽과 같이 가야하는지 잘 모른다.단일 도메인 및 모든 하위 사이트를 크롤링하는 Java 크롤러

내 목표는 http://www.example.com 즉 전체 도메인을 검색하는 것입니다 그것의 모든 즉 http://www.example.com/page1 그런 다음 나중에 자신의 소스를 찾기 위해 다른 태그를 통해 특히 이미지 태그를 검색 할 수 하위.

jsoup

어떤 생각 :

지금까지 단 하나의 크롤러가 내 눈을 사로 잡은있다?

답변

1

제가 틀릴 수도 있지만 당신은 크롤러하지만 HTML 분석기에 대한뿐만 아니라 요구하고 - 그렇다면, 당신은 JSoup으로 이동 또는 정규 표현식 구문 분석 할 수

... html 태그를 이해하는 것이 뭔가. 당신이 정말로 크롤러가 필요한 경우

, 당신은

희망 하강 오픈 소스 크롤러에게로 Nutch을 찾을 수있는이

+0

가 실제로 HTML 분석기가 정확히이 경우 사용할 수있는 권리 단어라고 생각하는 데 도움이됩니다. JSoup에서 사이트의 모든 특정 위치를 "알지 못한다"고하더라도 도메인의 모든 하위 사이트를 크롤링 할 수 있는지 알고 있습니까? 즉 www.example.com 만 입력하면 example.com의 모든 하위 사이트를 찾아 분석합니다. –

+0

JSoup은 크롤러가 아닌 HTML 애널라이저로 그렇게 의도되지 않았다고 생각합니다. 크롤러가 페이지를 사용할 수있는 주소를 알 수 없기 때문에 example.com의 모든 하위 사이트를 분석 할 기술적 방법은 없습니다. 대신 크롤러는 www.example.com과 같은 일부 '시드 데이터'로 시작하여 페이지 내부의 링크를 찾은 다음 '크롤링'합니다. 이러한 링크에서 사용 가능한 페이지를 다운로드하고 추가 링크를 찾습니다. 예를 들어,이 프로세스를 그래프 순회로 생각할 수 있습니다. 그래서 Nutch (다른 크롤러)와 JSoup를 모두 사용해야한다고 생각합니다. –

+0

Nope :) Nutch - 크롤링, JSoup 만 태그를 매핑합니다. 크롤러는 인터넷에서 데이터 (페이지)를 가져 와서 하드 드라이브에 일련의 파일로 다운로드합니다. JSoup는이 파일을 읽고 구문 분석 (태그 추출 등) 할 수 있습니다. –

관련 문제