가능한 중복 : 나는 gzip으로 압축되어 입력 파일을 사용하는 경우 하둡가 선택한 처리하는 하나의 맵 작업을 할당하는 것을 발견
Why can't hadoop split up a large text file and then compress the splits using gzip?하둡 GZIP 입력 파일을 사용하여 하나의 매퍼
내지도/삭감.
나는 그것을 개선하기 위해 할 수있는 모든 구성이 있는가 (UN-압축 파일을 사용하는 경우 exacly 같은)
gzip으로 압축 된 파일보다 1.4 GB, 그래서 나는 많은 맵퍼가 병렬로 실행하는 기대?
이 질문은 동일한 행 http://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a- 큰 텍스트 파일 - 및 - 다음 - 압축 - 더 - 분할 - 사용 - GZ 및 http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files . –