2011-09-14 7 views
1

많은 검색을 한 후 Nutch 1.3을 Solr과 함께 사용하는 방법에 대한 직접적인 설명이없는 것처럼 보입니다.간단한 Nutch 1.3/Solr 색인 설명

Solr 색인에는 검색을 위해 웹 사이트에서 사용할 다른 콘텐츠가 포함되어 있습니다.

Nutch 결과를 색인에 추가하면 웹 사이트 검색에 외부 사이트가 추가됩니다.

이 모든 작업이 정상적으로 작동합니다.

질문은 어떻게 색인을 새로 만드나요? Solr의 Nutch 결과를 모두 먼저 삭제해야합니까? 아니면 Nutch가 그 일을 처리합니까? Nutch는 Solr 색인에서 더 이상 유효하지 않은 결과를 제거합니까?

그들이하는 일에 대한 문서 나 설명이없는 쉘 스크립트는 이러한 질문에 대답하는 데 도움이되지 못했습니다.

답변

0

nutch 스키마는 id (= url)를 고유 키로 정의합니다. 당신이 URL을 다시 크롤하면 teh 문서가 solr 인덱스로 대체됩니다. nutch가 데이터를 solr에 게시합니다.

+0

크롤링 한 웹 사이트에 더 이상 존재하지 않는 문서를 정리하는 방법은 무엇입니까? – Karl

+0

기본적으로 그런 일은 발생하지 않습니다. 이를 달성하려면 색인에서 사이트의 모든 결과를 삭제 한 다음 새로 고침 크롤링을 실행해야합니다. 새로 고침 크롤링이 완료 될 때까지 결과를 얻을 수 있도록 solr 인덱스에 새 데이터를 제출하기 바로 전에 삭제 작업을 수행 할 수 있습니다. – Umar

+0

Nutch가 할 수있는 일인가요? 색인에서 물건을 지우는 것에 대해서는 아무것도 보이지 않습니다. – Karl

-1

웹 크롤러가 내장 된 테스트/프로토 타입 제작을 위해 Lucidworks Enterprise Solr를 사용해보십시오.

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

그것은 당신에게 전체 루씬 스택에 대한 느낌을 줄 것이다. 그것은 내가 지금까지 사용해 본 다른 Java 소프트웨어보다 훨씬 좋은 인터페이스를 가지고 있습니다. 사용하는 것은 기쁨입니다.

0

Nutch에서 증분 크롤링을 구현해야합니다. 이는 애플리케이션에 따라 다릅니다. 어떤 사람들은 매일 다시 크롤링하기를 원하고 다른 사람들은 3 개월마다 다시 크롤링하기를 원합니다. 어떤 경우에도 최대치는 90 일입니다.

일반적인 아이디어는 재 크롤링 최대 시간보다 오래된 크롤링 세그먼트를 삭제하는 것입니다. 이는 해당 시간에 중복 될 수 있기 때문입니다. Solr에서 사용하기 위해 신선한 solrindex을 생산하십시오.

스크립팅에서 직접해야 할 일이 있습니다. 언젠가 나는 위키를 위해 스크립트를 만들었지 만 게시 할 준비가되어 있지 않습니다.