2011-10-23 4 views
6

응용 프로그램을 편집하지 않고 MapReduce 작업의 중간 (지도 단계) 출력을 기록하기 위해 출력 할 수있는 방법이 있습니까? (응용 프로그램은 광산이 아니지만 클러스터는 내가 원하는대로 Hadoop Cluster를 설정할 수 있습니다.)Hadoop MapReduce 중간 출력

+0

작업을 다시 구성 할 수 있습니까? –

답변

8

keep.task.files.pattern 매개 변수를 사용하여 중간 파일을 유지할 수 있습니다. 작업이 완료되면 중간 파일을 수동으로 정리해야합니다. 맵/리사이징 작업 속성이므로 구성 파일에 설정해야하며 jar 파일이 다시 패키지화되어야합니다.

+0

정교하게 주시겠습니까? 이 매개 변수를 설정하고 출력 dirs 및 맵된 로컬 캐시에서 어디에서나 검색했지만 아무 위치도 출력하지 않습니다 ... – ihadanny

+0

... $ {mapred.output.dir }/_ 임시이지만, "_attempt_local_0003_r_000000"폴더를 줄이는 것이고, 결코 "m"대응 파일은 찾을 수 없다. – ihadanny

+0

'keep.task.files.pattern'을'. * 00000. *'으로 설정했다. -site.xml'이고'core-site.xml'의 매개 변수'hadoop.tmp.dir'는'$ HADOOP_HOME \ tmp'로 설정되어 있습니다. 작업을 실행 한 후 file.out과 file.out.index는'$ HADOOP_HOME/tmp/mapred/local/taskTracker/praveensripati/jobcache/job_201111031937_0001/attempt_201111031937_0001_m_000001_0/output' 폴더에 있습니다. 이러한 파일은 SequenceFile 형식입니다. [여기] (http://goo.gl/7fJzT)는 시퀀스 파일을 읽는 샘플 코드입니다. 어떤 패턴을 사용 했습니까? –

관련 문제