Hadoop은 압축을 투명하게 처리하지만 LZO를 분할하지 않음

TextInputFormat을 사용할 때 Hadoop이 압축을 투명하게 처리하는 것처럼 보입니다 (이 경우는 0.20.203에서 기억되지 않습니다). 불행하게도, LZO 압축을 사용할 때 Hadoop은 LZO 색인 파일을 사용하여 파일을 분할 가능하게하지 않습니다. 그러나 입력 형식을 com.hadoop.mapreduce.LzoTextInputFormat으로 설정하면 파일이 분할됩니다.Hadoop은 압축을 투명하게 처리하지만 LZO를 분할하지 않음

TextInputFormat을 사용할 때 LADO 파일의 압축을 풀도록 Hadoop을 구성 할 수 있습니까?

당신은 당신의 코드에서 LzoTextInputFormat를 사용하려면 : 난 그냥 여기에 유사한 문제로 실행하고있어

출처

2012-04-19 schmmd

혹시 하둡은 기본 @schmmd으로 LZO 인덱스 파일을 사용나요 :

(ignore.nonlzo에 대한 의견이있다)를 참조하십시오? CDH4.4.0에서이 동작을 계속 관찰하고 있습니다. – Andrew

나의 이해입니다. lzo와 non-lzo 파일을 혼합하여 처리하려면 lzo.text.input.format.ignore.nonlzo를 false로 설정해야합니다. 이 경우 LzoTextInputFormat은 모든 lzo 파일에 사용되지만 다른 파일의 경우 TextInputFormat이 기본값이됩니다 (색인 파일을 무시할만큼 똑똑합니다).

이 기능은이 질문에 처음 물었을 때 제공되지 않았기 때문에 이미이 솔루션을 알고있을 수 있습니다. https://github.com/twitter/hadoop-lzo/blob/master/src/main/java/com/hadoop/mapreduce/LzoTextInputFormat.java

출처

2014-01-31 19:54:42

Hadoop은 압축을 투명하게 처리하지만 LZO를 분할하지 않음

답변

관련 문제