하나의 Hadoop 맵을 작성하여 출력을 여러 S3 객체로 축소

여러 개의 S3 객체에서 출력을 생성해야하는 Hadoop Map reduce 작업을 구현 중입니다. Hadoop 자체는 하나의 출력 파일 (S3 개체) 만 생성하지만 출력을 여러 파일로 분할해야합니다.하나의 Hadoop 맵을 작성하여 출력을 여러 S3 객체로 축소

어떻게해야합니까?

출처

2009-12-04 Kallol Borah

S3 도구 키트를 사용하여 S3에 내 감속기 방법에서 직접 출력을 작성하여이 작업을 수행했습니다. EC2에서 실행 중이었기 때문에 이것은 빠르고 자유 롭습니다.

일반적으로 Hadoop이 더 깨끗한 매퍼와 리듀서를 위해 입력과 출력을 최대한 처리하기를 원합니다. Hadoop의 코드를 HDFS보다 더 효율적으로 사용할 수 있도록 파이프 라인의 맨 끝에서 S3에 쓰고 싶습니다.

어떤 경우 든, 모든 데이터 파티셔닝을 수행하고 최종 출력 작업을 S3 파일에 쓰는 것이 좋습니다. 이것은 가능한 한 당신의 코드에 작가 로직을 넣지 않는다. 내가 몇 가지 작업 흐름에 사용했던 최소한의 Hadoop S3 툴킷으로 끝났기 때문에이 덕분에 나에게 보탬이되었습니다.

S3/S3n 파일 시스템이 성숙하지 않았기 때문에 감속기 코드에서 S3에 쓸 필요가있었습니다. 그들은 지금 더 잘 작동 할 것입니다.

출처

2009-12-08 01:24:29

다중 출력 형식을 알고 있습니까? S3와 관련이 없지만 일반적으로 주어진 논리를 구현하여 여러 파일에 출력을 쓸 수 있습니다.

출처

2009-12-08 15:25:58

하나의 Hadoop 맵을 작성하여 출력을 여러 S3 객체로 축소

답변

관련 문제