2012-11-22 2 views
0

hadoop 다중 클러스터 환경에서 nutch를 실행 중입니다. nutch는 다음 명령hadoop 멀티 클러스터 환경에서 nutch를 실행하는 중 오류가 발생했습니다.

$ 빈/하둡 항아리 /home/nutch/nutch/runtime/deploy/nutch-1.5.1.job의 org.apache.nutch을 사용하여 실행되고있을 때

하둡은 오류를 던지고있다 .crawl.Crawl URL을 -dir URL을 -depth 1 -topN 5

오류 : 스레드 "주요"java.io.IOException 상위에 예외 : 아니 파일 : HDFS : // 마스터 : 54310/사용자/nutch/urls/crawldb at org.apache.hadoop.mapred.FileInputFormat.getSplits (FileInputFormat.java:170) at org.apache.hadoop.mapred.JobClient.submitJob (JobClient.subjob : JobClient.java:515) org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:753) at com.bdc.dod.dashboard.BDCQueryStatsViewer.run (BDCQueryStatsViewer.java:829) at org.apache.hadoop.util.ToolRunner .RUN (ToolRunner.java:65) com.bdc.dod.dashboard.BDCQueryStatsViewer.main (BDCQueryStatsViewer.java:796)에서 sun.reflect.NativeMethodAccessorImpl.invoke0 (기본 방법)에서 sun.reflect.NativeMethodAccessorImpl에서 . org.apache.hadoop에서 java.lang.reflect.Method.invoke (Method.java:585) 에서 sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:25)에 (NativeMethodAccessorImpl.java:39) 를 호출한다. util.RunJar.main (RunJar.java:155)

나는이 문제를 해결할 수있는 방법을 찾았으며/local/conf 경로 등에서 http.agent.name을 설정하는 것과 같은 모든 문제를 해결했습니다. 이전에 설치했기 때문에 원활했습니다.

아무도 해결책을 제안 할 수 있습니까?

덧붙여서, 나는 설치 및 실행을 위해 link을 따라갔습니다.

답변

0

이 문제를 해결할 수 있습니다. 로컬 파일 시스템에서 HDFS 대상 파일 시스템으로 파일을 복사 할 때 다음과 같이 사용했습니다. bin/hadoop dfs -put ~/nutch/urls urls.

그러나 "bin/hadoop dfs -put ~/nutch/urls/* urls"여야합니다. 여기서 urls/*는 하위 디렉토리를 허용합니다.

관련 문제