2014-12-19 3 views
1

nutch가 크롤링하는 페이지를 공유하는 수천 개의 solr 인덱스/컬렉션이 있습니다.여러 solr 인덱스 사이에서 크롤링 된 Nutch 데이터 공유

현재 이러한 페이지는 여러 페이지가 포함되어있는 각 solr 색인에 대해 한 번 크롤링 중입니다.

이러한 사이트를 한 번 크롤링하고 인덱스 간 크롤링 데이터를 공유 할 수 있습니까?

아마도 사이트가 크롤링 된 경우 기존 크롤을 확인하고 거기에서 파싱 및 색인을 위해 데이터를 가져옵니다.

또는 모든 사이트를 한 번에 크롤링 한 다음 각 인덱스에 크롤링 데이터를 선택적으로 제출하십시오.

어떤 아이디어 나 : (예를 들어, 하나 개의 세그먼트 당 사이트 만있는 세그먼트를 식별하는 방법을 잘 인해 세그먼트 이름을에 어떤 사이트에 속하는 숫자입니다) 도움 감사합니다 :)

답변

1

당신은 새로운 인덱서를 작성해야합니다 그 일을하는 플러그인; Nutch의 SolrIndexer를보고 새로운 인덱서를 작성하는 방법을 이해하십시오. 그 인덱서에서 다음을 수행해야합니다

  1. 가 서너 SOLR 서버 인스턴스, 각각의 코어 하나를 정의합니다.
  2. 인덱서 작성 메서드에서 문서의 유형을 검사하고 올바른 Solr 코어를 사용하여 문서를 추가합니다. 오른쪽으로 Nutch에 문서를 보낼 위치를 결정할 수있는 필드가 있어야합니다.
관련 문제