2

Gzip 된 .arc 파일에서 MapReduce 작업을 실행하고 있습니다. 이 question과 마찬가지로 Gzip 압축 풀기가 자동으로 실행되기 때문에 (파일의 확장자가 .gz이므로) 어려움을 겪고 있지만 Unix 파일 인코딩에 따라 줄 바꿈/캐리지 리턴이 줄 바꿈으로 렌더링됩니다. 이는 파일에 임베드 된 특정 문자 수에 의존하기 때문에 입력을 완전히 읽을 수 없도록 만듭니다. Gzip 압축 풀기를 비활성화하여 내 매퍼에서 대신 할 수 있도록 노력하고 있습니다. 나는 시도했다 :AWS Elastic Map에서 Gzip 입력 압축 해제 비활성화

-jobconf stream.recordreader.compression=none 

그러나 압축에 영향을 미치지 않는 것 같습니다. 입력에 Gzip 압축 풀기를 막을 수있는 방법이 있습니까?

감사합니다, -Geoff

답변

2

나는 잠재적 인 문제를 확인했습니다, 그리고 질문에 주위에 작업 당신이 언급 한 : 기본적으로

의 문제에서을 쉽게 수정할 수있는 PipeMapper.java

+1

이것은 분명히 현재의 문제를 명시하고 있습니다. 감사! – ghayes