2016-10-01 2 views
2

하이브가 674 개의 .gz 파일을 생성 한 674 개의 매퍼로지도 작업 만 실행했습니다.이 파일을 30-35 개의 파일에 병합하고 싶습니다. 병합되지 않은 채 메기 맵 파일 속성을 시도했습니다. 출력Hadoop 병합 파일

답변

6

TEZ 실행 엔진을 사용하고 hive.merge.tezfiles을 사용해보십시오. 또한 크기를 지정할 수도 있습니다.

set hive.execution.engine=tez; -- TEZ execution engine 
set hive.merge.tezfiles=true; -- Notifying that merge step is required 
set hive.merge.smallfiles.avgsize=128000000; --128MB 
set hive.merge.size.per.task=128000000; -- 128MB 

당신이 MR 엔진에 가고 싶은 경우의 파일과 약 크기를 병합 한 단계를 생성합니다 (저는 개인적으로 그것을 시도하지 않은)

set hive.merge.mapredfiles=true; -- Notifying that merge step is required 
set hive.merge.smallfiles.avgsize=128000000; --128MB 
set hive.merge.size.per.task=128000000; -- 128MB 

설정 위의 설정을 다음과 같은 추가 각 파트 파일은 128MB 여야합니다.

참조 :