Apache Nutch를 설정하고 Solr에서 색인 된 데이터를 가져올 수 있습니다. 색인을 생성하는 동안 수정 된 페이지 만 색인 생성되도록 노력하고 있습니다. 아래는 우리가 이것에 관해 가지고있는 두 가지 질문입니다.Apache Nutch - Solr에서 수정 된 파일 만 인덱싱
이 가능 보내 Nutch 말할 수 있나요 이 사이트를 크롤링하는 동안 헤더 '이후-변경 한 경우 -'하고 가 마지막으로 크롤링 된 이후 변경 한 경우에만 페이지를 다운로드합니다.
내가 Nutch는 MD5가 검색 페이지 내용에서 소화 형성되는 것을 볼 수 있지만 다이제스트 (이전 버전에 비해) 변경되지 않았습니다 비록 수는 여전히 SOLR의 페이지 색인입니다. Nuch에서 설정 한 내용이 내용이 변경되지 않았 으면 Solr에서 색인을 생성하지 않았습니까?
보십시오 [여기] (http://stackoverflow.com/questions/14261586/recrawl-url-with-nutch-just-for-updated-sites) 및 [여기] (http://stackoverflow.com/questions/14261586/recrawl-ur-with-nutch-just-for-updated-sites) – ameertawfik