Spark : 압축하지 않고 saveAsTextFile

기본적으로 새로운 버전의 Spark에서는 텍스트 파일을 저장할 때 압축을 사용합니다. 예 :Spark : 압축하지 않고 saveAsTextFile

val txt = sc.parallelize(List("Hello", "world", "!")) 
txt.saveAsTextFile("/path/to/output")

은 .deflate 형식의 파일을 만듭니다. 압축 알고리즘을 변경하는 것은 매우 쉽습니다.

import org.apache.hadoop.io.compress._ 
val txt = sc.parallelize(List("Hello", "world", "!")) 
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])

그러나 일반 텍스트 파일로 RDD 저장 에 방법이, 즉 어떤 압축없이 : .gzip 하시나요?

출처

2016-10-26 ffriend

'mapred.output.compress'를 false로 설정해보십시오. – mrsrinivas

Spark : 압축하지 않고 saveAsTextFile

답변

관련 문제