여러 개의 S3 객체에서 출력을 생성해야하는 Hadoop Map reduce 작업을 구현 중입니다. Hadoop 자체는 하나의 출력 파일 (S3 개체) 만 생성하지만 출력을 여러 파일로 분할해야합니다.하나의 Hadoop 맵을 작성하여 출력을 여러 S3 객체로 축소
어떻게해야합니까?
여러 개의 S3 객체에서 출력을 생성해야하는 Hadoop Map reduce 작업을 구현 중입니다. Hadoop 자체는 하나의 출력 파일 (S3 개체) 만 생성하지만 출력을 여러 파일로 분할해야합니다.하나의 Hadoop 맵을 작성하여 출력을 여러 S3 객체로 축소
어떻게해야합니까?
S3 도구 키트를 사용하여 S3에 내 감속기 방법에서 직접 출력을 작성하여이 작업을 수행했습니다. EC2에서 실행 중이었기 때문에 이것은 빠르고 자유 롭습니다.
일반적으로 Hadoop이 더 깨끗한 매퍼와 리듀서를 위해 입력과 출력을 최대한 처리하기를 원합니다. Hadoop의 코드를 HDFS보다 더 효율적으로 사용할 수 있도록 파이프 라인의 맨 끝에서 S3에 쓰고 싶습니다.
어떤 경우 든, 모든 데이터 파티셔닝을 수행하고 최종 출력 작업을 S3 파일에 쓰는 것이 좋습니다. 이것은 가능한 한 당신의 코드에 작가 로직을 넣지 않는다. 내가 몇 가지 작업 흐름에 사용했던 최소한의 Hadoop S3 툴킷으로 끝났기 때문에이 덕분에 나에게 보탬이되었습니다.
S3/S3n 파일 시스템이 성숙하지 않았기 때문에 감속기 코드에서 S3에 쓸 필요가있었습니다. 그들은 지금 더 잘 작동 할 것입니다.
다중 출력 형식을 알고 있습니까? S3와 관련이 없지만 일반적으로 주어진 논리를 구현하여 여러 파일에 출력을 쓸 수 있습니다.