2012-02-13 2 views
1

EMR 맵 작업에서 s3 버킷으로 직접 쓰는 방법을 알아 내려고합니다. 인터넷에서 데이터를 가져 와서 s3에 저장하는 Python 스트리밍 작업을 실행하고 싶습니다. 작업을 줄이기 위해 다시 돌려 보내지 않고 말입니다. 누구든지 저를 도울 수 있습니까? 당신이 원하는 일을해야EMR 맵/축소 작업에서 직접 S3에 액세스

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE 

:

답변

0

왜 그냥 S3 디렉토리를하고 더 감속기가 없음을 알려하여 MR 작업의 출력을 설정하지 마십시오.

그렇다면이 같은 (죄송합니다, 루비) 할 수있는 스크립트 :

STDIN.each do |url| 
    puts extract_data(url) 
end 
관련 문제