2016-09-20 2 views
0

EMR에서 파이썬 스파크 작업을 실행하는 데 어려움을 겪고 있습니다.EMR에서 파이썬 스파크 실행

aws emr add-steps --cluster-id j-XXXXXXXX --steps \ 
Type=CUSTOM_JAR,Name="Spark Program",\ 
Jar="command-runner.jar",ActionOnFailure=CONTINUE,\ 
Args=["spark-submit",--deploy-mode,cluster,--master,yarn,s3://XXXXXXX/pi.py,2] 

우리는이 스크립트가 실행 같은 pyspark compute pi script as the AWS page suggests

을 실행하고 있지만, 영원히 파이를 계산 실행됩니다. 로컬 컴퓨터에서는 완료하는 데 몇 초가 걸립니다. 우리는 클라이언트 모드도 시도했습니다. 클라이언트 모드에서는 파일을 로컬로 전송합니다.

16/09/20 15:20:32 INFO Client: 
    client token: N/A 
    diagnostics: N/A 
    ApplicationMaster host: N/A 
    ApplicationMaster RPC port: -1 
    queue: default 
    start time: 1474384831795 
    final status: UNDEFINED 
    tracking URL: http://XXXXXXX.ec2.internal:20888/proxy/application_1474381572045_0002/ 
    user: hadoop 
16/09/20 15:20:33 INFO Client: Application report for application_1474381572045_0002 (state: ACCEPTED) 
Repeats this last command over and over... 
영원히 실행하지 않고 EMR에 example python spark pi 스크립트를 실행하는 방법을

사람이 알고 있나요?

답변

1

작업이 ACCEPTED 상태로 영원히 표시되면 실제로 실행 중이 아니라 YARN이 응용 프로그램을 실행할 충분한 리소스를 기다리고 있음을 의미합니다. 보통 이것은 이미 다른 YARN 응용 프로그램을 실행하고 리소스를 사용하고 있기 때문에 발생합니다. 이 경우에 가장 쉬운 방법은 마스터 노드의 포트 8088에서 YARN ResourceManager를 확인하는 것입니다. 마스터 노드에 ssh하면 "yarn application -list"명령을 실행할 수도 있습니다.

+0

우리는 테스트하기 위해 가장 작은 인스턴스 유형을 사용하여 계속하기 전에 pyspark가 작동하는지 확인했습니다. m1.medium이 너무 작아 aws 웹 사이트에서 예제 작업을 실행할 수 없습니다. 나는 결코 이것을 짐작하지 않고 있었을 것이다. 조나단, 고마워. –

관련 문제