현재 일부 파일은 S3 서버에 저장되어 있습니다. 파일은 디스크 공간을 줄이기 위해 gzip으로 압축 된 로그 파일 (.log 확장자이지만 일반 텍스트 내용)입니다. 그러나 gzip은 분할 가능하지 않으며 이제 Amazon EMR에서 파일을 저장/처리하는 몇 가지 좋은 대안을 찾고 있습니다.Amazon emr : best compression/fileformat
그래서 로그 파일에 사용할 최상의 압축 또는 파일 형식은 무엇입니까? 나는 avro와 SequenceFile, bzip2, LZO와 snappy를 보았습니다. 조금은 그렇고 조금 압도적입니다.
이 문제에 대한 통찰력을 주셔서 감사합니다.
데이터는 출력을 압축에 대해 이야기 섹션이 년대 Best Practices for Amazon EMR을 선택하면
종류는