0
Solr에게 공급되는 Nutch를 실행하는 서버가 있습니다. Nutch의 입력은 rss 피드의 xml이며 적절한 피드 플러그인을 사용하여 구문 분석하는 것으로 보입니다.Nutch + Solr; SolrDeleteDuplicates는 하나의 인덱스를 제외한 모든 것을 삭제합니다.
기본 크롤링을 실행하면 xml의 다양한 링크를 제대로 크롤링하고 식별하며 올바른 수의 문서에 대한 색인을 생성합니다. 그러나 SolrDeleteDuplicates는 하나를 제외한 모든 것을 삭제하는 것처럼 보입니다. 삭제되지 않는 것은 무작위로 보입니다.
Indexing 21 documents
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
SolrDeleteDuplicates: deleting 20 duplicates
아이디어가 있으십니까?