많은 검색을 한 후 Nutch 1.3을 Solr과 함께 사용하는 방법에 대한 직접적인 설명이없는 것처럼 보입니다.간단한 Nutch 1.3/Solr 색인 설명
Solr 색인에는 검색을 위해 웹 사이트에서 사용할 다른 콘텐츠가 포함되어 있습니다.
Nutch 결과를 색인에 추가하면 웹 사이트 검색에 외부 사이트가 추가됩니다.
이 모든 작업이 정상적으로 작동합니다.
질문은 어떻게 색인을 새로 만드나요? Solr의 Nutch 결과를 모두 먼저 삭제해야합니까? 아니면 Nutch가 그 일을 처리합니까? Nutch는 Solr 색인에서 더 이상 유효하지 않은 결과를 제거합니까?
그들이하는 일에 대한 문서 나 설명이없는 쉘 스크립트는 이러한 질문에 대답하는 데 도움이되지 못했습니다.
크롤링 한 웹 사이트에 더 이상 존재하지 않는 문서를 정리하는 방법은 무엇입니까? – Karl
기본적으로 그런 일은 발생하지 않습니다. 이를 달성하려면 색인에서 사이트의 모든 결과를 삭제 한 다음 새로 고침 크롤링을 실행해야합니다. 새로 고침 크롤링이 완료 될 때까지 결과를 얻을 수 있도록 solr 인덱스에 새 데이터를 제출하기 바로 전에 삭제 작업을 수행 할 수 있습니다. – Umar
Nutch가 할 수있는 일인가요? 색인에서 물건을 지우는 것에 대해서는 아무것도 보이지 않습니다. – Karl