2011-09-12 6 views
2

가능한 중복 : 나는 gzip으로 압축되어 입력 파일을 사용하는 경우 하둡가 선택한 처리하는 하나의 맵 작업을 할당하는 것을 발견
Why can't hadoop split up a large text file and then compress the splits using gzip?하둡 GZIP 입력 파일을 사용하여 하나의 매퍼

내지도/삭감.

나는 그것을 개선하기 위해 할 수있는 모든 구성이 있는가 (UN-압축 파일을 사용하는 경우 exacly 같은)

gzip으로 압축 된 파일보다 1.4 GB, 그래서 나는 많은 맵퍼가 병렬로 실행하는 기대?

+0

이 질문은 동일한 행 http://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a- 큰 텍스트 파일 - 및 - 다음 - 압축 - 더 - 분할 - 사용 - GZ 및 http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files . –

답변

4

Gzip 파일을 분할 할 수 없으므로 모든 데이터가 하나의 맵으로 처리됩니다. 압축 된 파일을 분할 할 수있는 다른 압축 알고리즘을 사용해야하는 경우 데이터가 여러 맵으로 처리됩니다. 여기에 좋은 기사가 있습니다. (1)

편집 : 다음은 Google의 Snappy (2)에 대한 다른 기사입니다.

(1) http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2) http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/