2011-10-28 2 views
2

안녕하세요, 저는 sol와 nutch를 우분투에 설치했습니다. 때때로 크롤링하고 색인을 생성 할 수 있지만 항상 그렇지는 않습니다. 이 경로 오류가 반복적으로 발생하여 온라인에서 해결책을 찾을 수 없습니다. 일반적으로 오류가있는 디렉터리를 삭제하고 다시 실행하면 정상적으로 실행됩니다. 그러나 나는 이것을 더 이상하고 싶지 않다. 오류의 원인은 무엇입니까? 감사. 크롤링 폴더에 대한Nutch 경로 오류

LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916 
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907 
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840 
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701 
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data 
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data 
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190) 
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201) 
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249) 
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175) 
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255) 

답변

0
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/* 

확인이 존재하고 적절한 권한을 가지고, 당신은 선택의 새로운 버전으로 위와 같이 -linkdb 사용해야합니다. 대부분이 오류는 crawldb linkdb 및 세그 먼 트 경로가 올바르게 지정되지 않은 경로로 인해 발생합니다.

위의 구문을 사용하여 동일한 문제가 발생했습니다. 지정한 폴더가 올바른지 확인하십시오.

사용이,

http://thetechietutorials.blogspot.com/2011/06/solr-and-nutch-integration.html

나를 위해 일했다.

1

너는 Nutch 프로세스를 죽였을 것입니다. 디렉토리 crawldb 등을 지우면 갈 수 있습니다.

Nutch는 먼저 크롤링 경로에서 준비 링크 데이터베이스 (linkdb)를 찾고, 찾을 수없는 경우 사용자가 제공 한 시드 파일에서 새 링크 데이터베이스를 만듭니다. 크롤링 프로세스를 종료하면 링크 데이터베이스에서 읽지 못하게됩니다.