2014-09-24 5 views
0

Apache Nutch를 설정하고 Solr에서 색인 된 데이터를 가져올 수 있습니다. 색인을 생성하는 동안 수정 된 페이지 만 색인 생성되도록 노력하고 있습니다. 아래는 우리가 이것에 관해 가지고있는 두 가지 질문입니다.Apache Nutch - Solr에서 수정 된 파일 만 인덱싱

  • 이 가능 보내 Nutch 말할 수 있나요 이 사이트를 크롤링하는 동안 헤더 '이후-변경 한 경우 -'하고 가 마지막으로 크롤링 된 이후 변경 한 경우에만 페이지를 다운로드합니다.

  • 내가 Nutch는 MD5가 검색 페이지 내용에서 소화 형성되는 것을 볼 수 있지만 다이제스트 (이전 버전에 비해) 변경되지 않았습니다 비록 수는 여전히 SOLR의 페이지 색인입니다. Nuch에서 설정 한 내용이 내용이 변경되지 않았 으면 Solr에서 색인을 생성하지 않았습니까?

+0

보십시오 [여기] (http://stackoverflow.com/questions/14261586/recrawl-url-with-nutch-just-for-updated-sites) 및 [여기] (http://stackoverflow.com/questions/14261586/recrawl-ur-with-nutch-just-for-updated-sites) – ameertawfik

답변

0

여기에 내 자신의 질문에 대답, 내가 adaptivefetchschedule를 설정하면 누군가 희망이 도움, Nutch가 수정 한 경우 --이후 헤더 존중 changed.Its를 었소 페이지를 당기는되지 않았 음을 볼 수 있었다.

관련 문제