2012-03-26 4 views
0

웹 사이트를 크롤링하는 데 nutch 1.4를 사용하고 3.5를 사용하여 색인 된 데이터를 사용했습니다. 이것은 성공적이었다. Luke를 사용하여 색인 데이터를 확인한 결과 1678 개의 문서가 가져와졌습니다. 그러나 검색을위한 solr 인터페이스에 쿼리 문자열 (몇 개의 핵심 단어)을 입력하면 1678 개의 문서가 모두 검색되었습니다. 대부분의 검색된 웹 페이지에는 이러한 핵심 단어가 전혀 포함되어 있지 않기 때문에 이상합니다.모든 문서가 검색되는 solr 검색

이 문제는 어떤 아이디어입니까?

감사합니다.

천둥

+1

그것은 아무것도 될 수 있습니다. 세부 사항을 추가 할 수 있습니까? 'schema.xml'예를 들어, 당신이 시도하는 쿼리. 감사합니다 – javanna

+0

제가 크롤링 한 것은 의학 도서관 웹 사이트입니다. 대부분 의학 용어와 용어가 포함되어 있습니다. 예를 들어 쿼리 문자열 'Clinical Allegy & Clinical Immunology'를 입력하면 solr이 1678 개의 문서를 모두 반환합니다. 감사! 그런데 – thunder

+0

Nutch 1.4에서 직접 복사 한 'schema.xml'을 사용했습니다. nutch_home/runtime/local/conf 아래에 있습니다. 감사! – thunder

답변

0

가 SOLR으로 검색 할 때 흠, 사람들은 일반적으로 "실종 문서"유형의 문제가 있습니다. 반대 문제가 있습니다.

Luke와 함께 색인을 연 직후 왜 그런 일이 벌어지는 지 알 수 있습니다. Nutch의 스키마가있는 기본 검색 필드는 Content이므로 Solr에 검색어 만 입력하면 검색 할 필드가 입력됩니다. 루크를 사용하여 내용을 검토하십시오.

당신은, 물론, 이러한 귀중한 자원을 알고 :
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html