내 Elastic Map에서 S3에 저장된 작업 출력 줄이기에 LZO 압축을 사용하려고하지만이 데이터에서 향후 작업이 파일을 여러 작업으로 분할 할 수 있도록 파일이 자동으로 인덱싱되는지는 분명하지 않습니다.AWS EMR의 Hadoop 출력에서 LZO를 사용할 때 나중에 자동으로 분할 할 수 있도록 (S3에 저장된) 파일을 색인화합니까?
예를 들어, 내 출력이 1GB LZO 파일에서 일련의 TSV 데이터 라인 인 경우 장래의 맵 작업은 1 개의 작업 또는 (1GB/blockSize) 작업 (예 : 파일이 압축되지 않았거나 디렉토리에 LZO 색인 파일이있는 경우)?
편집 : 이것이 자동으로 수행되지 않으면 내 출력을 LZO-indexed로 만드는 데 권장되는 것은 무엇입니까? 의 색인을 수행하여3에 파일을 업로드 하시겠습니까?