2013-11-15 4 views
0

Solr에게 공급되는 Nutch를 실행하는 서버가 있습니다. Nutch의 입력은 rss 피드의 xml이며 적절한 피드 플러그인을 사용하여 구문 분석하는 것으로 보입니다.Nutch + Solr; SolrDeleteDuplicates는 하나의 인덱스를 제외한 모든 것을 삭제합니다.

기본 크롤링을 실행하면 xml의 다양한 링크를 제대로 크롤링하고 식별하며 올바른 수의 문서에 대한 색인을 생성합니다. 그러나 SolrDeleteDuplicates는 하나를 제외한 모든 것을 삭제하는 것처럼 보입니다. 삭제되지 않는 것은 무작위로 보입니다.

Indexing 21 documents 
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22 
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53 
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr 
SolrDeleteDuplicates: deleting 20 duplicates 

아이디어가 있으십니까?

답변

0

대부분의 경우 중복 제거 설정이 모든 항목에 대해 동일한 필드를 찾도록 잘못 구성했을 수 있습니다. 솔레는 그들이 모두 같은 기록이라고 생각합니다.

그렇지 않은 경우 중복 제거 구성에 대한 구성으로 질문을 업데이트하십시오.

관련 문제