2011-02-09 5 views
0

나는 nutch and solr에게 초보자입니다. 솔직히 Nutch보다 솔직히 더 새롭다.Nutch 즉석에서 질문하기

나는 지난 2 주 동안 nutch를 사용 해왔고, 내가 완성되기 전에 비행 중에 내 nutch 크롤링을 검색하거나 검색 할 수 있는지 알고 싶었다. 나는 크롤 링 할 웹 사이트가 정말 거대하고 크롤링을 완료하는 데 3-4 일이 걸리기 때문에이 질문을하고 있습니다. Nutch 크롤러가 여전히 URL을 크롤링하는 동안 빠른 결과를 분석하고 싶습니다. 솔라가 가능할 것이라고 제게 제안했습니다.

나는 이에 대해 http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/의 단계를 따랐습니다. Solr 검색에 삽입 된 URL 만 표시되는 것을 볼 수 있습니다. 나는 내가 어리석은 무엇인가를했고 크롤링이 결코 일어난 적이 없다는 것을 안다, 나는 내가 여기에 약간의 정보를 놓치고 있다고 느낀다. 그러나 나는 링크에서 언급 된 모든 조치를 취했다. 나는 어딘가에 그 과정에서 크롤링이 일어나고 놓쳐 야한다고 생각한다.

일부 사람이 나를 지적하고 프로세스에서 잘못된 부분을 지적 할 수 있는지 확인하고 싶었습니다. 양해 해 주시고 내 어리 석음을 용서해주십시오.

건배 아비

답변

0

이 불가능하다. 덩어리가 적은 수의 크롤링주기 당신은 무엇을 생각 할 수 있습니다 URL의 당신의 OneStop 명령 craw리터가 동일해야합니다을 사용하는 경우이 명령
nutch generate crawl/crawldb crawl/segments -topN <the limit>
아 파크 더 자주 그 결과를 게시 할 것 같은.

일반적으로 24 시간의 청킹 체계가 있습니다.