2014-04-23 2 views
1

현재 일부 파일은 S3 서버에 저장되어 있습니다. 파일은 디스크 공간을 줄이기 위해 gzip으로 압축 된 로그 파일 (.log 확장자이지만 일반 텍스트 내용)입니다. 그러나 gzip은 분할 가능하지 않으며 이제 Amazon EMR에서 파일을 저장/처리하는 몇 가지 좋은 대안을 찾고 있습니다.Amazon emr : best compression/fileformat

그래서 로그 파일에 사용할 최상의 압축 또는 파일 형식은 무엇입니까? 나는 avro와 SequenceFile, bzip2, LZO와 snappy를 보았습니다. 조금은 그렇고 조금 압도적입니다.

이 문제에 대한 통찰력을 주셔서 감사합니다.

데이터는 출력을 압축에 대해 이야기 섹션이 년대 Best Practices for Amazon EMR을 선택하면

종류는

답변

0

에 관하여 (지도/작업을 줄일 수) 돼지 작업에 사용되는 :

압축 매퍼 출력 - 압축은 디스크에 쓰여지는 데이터가 적어 디스크 입출력을 향상시키는 을 의미합니다. FILE_BYTES_WRITTEN Hadoop 메트릭을보고 디스크에 기록 된 데이터의 양을 모니터링 할 수 있습니다. . 컴프레션은 또한 은 리듀서가 데이터를 가져 오는 셔플 단계를 도와줍니다. 압축은 클러스터 HDFS 데이터 복제에도 도움이됩니다. 압축을 사용하려면 mapred.compress.map.output을 true로 설정하십시오. 압축을 사용하는 경우 압축 알고리즘을 선택할 수도 있습니다. LZO의 성능은 이며 압축 및 압축 해제가 빠릅니다.

관련 문제