3
기본적으로 새로운 버전의 Spark에서는 텍스트 파일을 저장할 때 압축을 사용합니다. 예 :Spark : 압축하지 않고 saveAsTextFile
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")
은 .deflate
형식의 파일을 만듭니다. 압축 알고리즘을 변경하는 것은 매우 쉽습니다.
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])
그러나 일반 텍스트 파일로 RDD 저장 에 방법이, 즉 어떤 압축없이 : .gzip
하시나요?
'mapred.output.compress'를 false로 설정해보십시오. – mrsrinivas