Apache Spark에서 결과를 S3로 업로드 할 때 주요 성능 문제가 나타납니다. 나의 이해에 따라 그 다음 단계 ... 마지막 단계의Apache Spark에서 S3로 업로드 성능 문제
출력이 HDFS에
_temp/
테이블에 기록되고 동일한 특정S3
폴더 안에"_temporary"
폴더로 이동을 간다.전체 프로세스가 완료되면 Apache가 실행되어
saveAsTextFile
단계가 완료되고"_temporary"
폴더의 파일이S3
으로 기본 폴더로 이동됩니다. 이것은 실제로 오랜 시간이 걸립니다 [파일 당 약 1 분 (평균 크기 : 600 MB BZ2)]. 이 부분은 보통stderr
로그에 기록되지 않습니다.
내가 AWS EMR에 Hadoop 2.2
아파치 Spark 1.0.1
을 사용하고 있습니다.
누구에게이 문제가 발생 했습니까?
업데이트 1
어떻게이 이동 프로세스를 수행 스레드의 수를 증가시킬 수있다?
어떤 제안은 매우 감사합니다 ...
감사
답변을 자세히 기재 해주세요. 그것은 작동하지 않습니다 ... "Text.class"를 사용하여 오류가 발생했습니다 ... – user3279189
saveAsHadoopFile [F <: org.apache.hadoop.mapred.OutputFormat [_, _]] (path : String, 클래스 : [_], valueClass : 클래스 [_], outputFormatClass : 클래스 [F], 코덱 : 클래스 [_ <: org.apache.hadoop.io.compress.CompressionCodec>) : 단위 임의의 Hadoop에 출력 지원되는 파일 시스템, 제공된 코덱으로 압축. 귀하의 키와 가치에 맞는 수업을하십시오. –