TextInputFormat
을 사용할 때 Hadoop이 압축을 투명하게 처리하는 것처럼 보입니다 (이 경우는 0.20.203에서 기억되지 않습니다). 불행하게도, LZO 압축을 사용할 때 Hadoop은 LZO 색인 파일을 사용하여 파일을 분할 가능하게하지 않습니다. 그러나 입력 형식을 com.hadoop.mapreduce.LzoTextInputFormat
으로 설정하면 파일이 분할됩니다.Hadoop은 압축을 투명하게 처리하지만 LZO를 분할하지 않음
TextInputFormat
을 사용할 때 LADO 파일의 압축을 풀도록 Hadoop을 구성 할 수 있습니까?
당신은 당신의 코드에서 LzoTextInputFormat를 사용하려면 : 난 그냥 여기에 유사한 문제로 실행하고있어
혹시 하둡은 기본 @schmmd으로 LZO 인덱스 파일을 사용나요 :
(ignore.nonlzo에 대한 의견이있다)를 참조하십시오? CDH4.4.0에서이 동작을 계속 관찰하고 있습니다. – Andrew