2013-05-12 2 views
4

Apache Hadoop의 출력 파일을 더 적은 수의 파일이나 하나의 파일로 "처리"할 수있는 도구를 아는 사람이 있습니까? 현재 모든 파일을 로컬 컴퓨터에 다운로드하고 하나의 파일에 연결합니다. 그렇다면 누구나 API 또는 동일한 작업을 수행하는 도구에 대해 알고 있습니다. 미리 감사드립니다. Apache Hive에서 출력 파일 수를 줄이는 방법

답변

2

출력 파일 수를 제한하면 감속기 수를 제한하려고합니다. Hive 셸에서 mapred.reduce.tasks 속성을 사용하여이 작업을 수행 할 수 있습니다. 예 :이 쿼리의 성능에 영향을 미칠 수

hive> set mapred.reduce.tasks = 5; 

하지만. 또는 쿼리가 완료되면 HDFS 셸에서 getmerge 명령을 사용할 수 있습니다. 이 명령은 소스 디렉토리와 대상 파일을 입력으로 취해 src의 파일을 대상 로컬 파일에 연결합니다.

사용법 :

bin/hadoop fs -getmerge <src> <localdst> 

HTH

관련 문제