0

그래프를 계산하는 metrics.py가 있습니다.스파크에서 파이썬 스크립트를 호출하는 방법?

터미널 명령 줄 (python ./metrics.py -i [input] [output])에서 호출 할 수 있습니다.

Spark에서 함수를 작성하고 싶습니다. metrics.py 스크립트를 제공 파일 경로에서 실행하도록 호출하고 metrics.py가 인쇄하는 값을 수집합니다.

어떻게하면됩니까? 감사.

답변

1

metrics.py를 실행하려면 기본적으로 스파크 작업을 실행하는 모든 실행자 노드로 보내야합니다.

sc = SparkContext(conf=conf, pyFiles=['path_to_metrics.py']) 

또는 나중에 스파크 컨텍스트의 addPyFile 방법을 사용하여 통과 - -

이렇게하려면, 당신은 SparkContext 통해 전달하거나 그 후, 잊지 마세요, 어느 경우

sc.addPyFile('path_to_metrics.py') 

을 metrics.py를 가져온 다음 필요한 출력을 제공하는 필요한 함수를 호출하십시오.

import metrics 
metrics.relevant_function() 

또한 모든 실행 프로그램 노드에 metrics.py 내에 가져온 모든 Python 라이브러리가 있는지 확인하십시오. 그렇지 않으면 작업을 촉발하는 동안 --py-files 및 --jars 핸들을 사용하여 처리하십시오.

관련 문제