2010-04-08 4 views
0

여러 개의 입력 디렉토리에있는 여러 파일을 하나의 파일로 결합하려고합니다. 필자의 초기 시도는 입력을 출력물로 복사 한 'nul'매퍼와 감속기를 작성하는 것이었지만 실패했다. 내 최신 시도는 다음과 같습니다매핑이나 축소없이 많은 파일을 Hadoop 내에서 하나의 파일로 연결하는 방법

vcm_hadoop의 레스터 항아리 /vcm/home/apps/hadoop/contrib/streaming/hadoop-*-streaming.jar -input/만 이해/201004/08/1017/00 - 출력/lcuffcat9 -mapper/bin/cat -reducer NONE

하지만 어쨌든 여러 개의 출력 파일로 끝납니다. 아무도 내가 단일 출력 파일에 모든 것을 동축시킬 수있는 방법을 알고 있습니까?

답변

1

고양이 매퍼는 보관하고 고양이 리듀서는 하나만 사용하십시오. 감속기의 수를 1로 설정해야합니다. 출력은 또한 분류기를 통과했을 것입니다.

매퍼 수만 제안 할 수 있기 때문에 감속기를 사용해야합니다.

출력을 정렬하지 않으려면 매퍼가 파일 이름을 입력으로 받아 해당 파일을 읽고 파일 이름과 줄 번호를 키로, 파일의 줄을 값으로 출력 할 수 있습니다. 감속기가 키를 버리고 값을 출력하도록하십시오.

관련 문제