EMR에서 파이썬 스파크 작업을 실행하는 데 어려움을 겪고 있습니다.EMR에서 파이썬 스파크 실행
aws emr add-steps --cluster-id j-XXXXXXXX --steps \
Type=CUSTOM_JAR,Name="Spark Program",\
Jar="command-runner.jar",ActionOnFailure=CONTINUE,\
Args=["spark-submit",--deploy-mode,cluster,--master,yarn,s3://XXXXXXX/pi.py,2]
우리는이 스크립트가 실행 같은 pyspark compute pi script as the AWS page suggests
을 실행하고 있지만, 영원히 파이를 계산 실행됩니다. 로컬 컴퓨터에서는 완료하는 데 몇 초가 걸립니다. 우리는 클라이언트 모드도 시도했습니다. 클라이언트 모드에서는 파일을 로컬로 전송합니다.
16/09/20 15:20:32 INFO Client:
client token: N/A
diagnostics: N/A
ApplicationMaster host: N/A
ApplicationMaster RPC port: -1
queue: default
start time: 1474384831795
final status: UNDEFINED
tracking URL: http://XXXXXXX.ec2.internal:20888/proxy/application_1474381572045_0002/
user: hadoop
16/09/20 15:20:33 INFO Client: Application report for application_1474381572045_0002 (state: ACCEPTED)
Repeats this last command over and over...
영원히 실행하지 않고 EMR에
example python spark pi 스크립트를 실행하는 방법을
사람이 알고 있나요?
우리는 테스트하기 위해 가장 작은 인스턴스 유형을 사용하여 계속하기 전에 pyspark가 작동하는지 확인했습니다. m1.medium이 너무 작아 aws 웹 사이트에서 예제 작업을 실행할 수 없습니다. 나는 결코 이것을 짐작하지 않고 있었을 것이다. 조나단, 고마워. –