2013-10-25 2 views
1

, 나는이 크롤링 명령을 알고 bin/crawl 명령. 마찬가지로 bin/nutch 명령의 크롤링 ID를 지정하는 방법은 무엇입니까?Nutch 크롤링 명령 Nutch 2.2.1를 들어

내가 묻는 이유는 크롤링 ID를 지정하기 위해 all-in-one crawl command "bin/crawl"을 사용하여 큰 크롤링 작업을 실행했기 때문에 Solr에서 9 번째 크롤링 반복을 위해 인덱싱하는 동안 깨졌습니다. 자, 이제 막 중단 된 9 번째 반복에 대해 solr 색인 작성을 완료하기 위해 하나의 단계 "bin/nutch solrindex" 명령을 실행하려고합니다. "bin/nutch solrindex"명령에서 crawlID를 어떻게 지정해야합니까? 구문은 무엇입니까?

가 나는 HBase를 테이블에 저장된 모든 크롤링 데이터가 "webpage_test"

답변

1

당신은 빈/nutch solrindex을 실행하고 매개 변수에 크롤링 및 세그먼트 폴더를 전달할 수 있습니다.

Nutch는 모든 문서를 색인하지만 ID 필드를 사용하여 이미 삽입되었는지 확인하기 때문에 중복을 만들지 않습니다.