나는 자원 관리자로 YARN을 사용하여 Cloudera CDH5.3 클러스터에서 Spark를 실행합니다. Python (PySpark)에서 Spark 앱을 개발 중입니다.YARN 클러스터에서 PySpark 분산 처리
작업을 제출할 수 있으며 성공적으로 실행되지만 둘 이상의 컴퓨터 (제출 한 로컬 컴퓨터)에서 실행되는 것처럼 보이지는 않습니다.
클러스터에 --deploy-mode를 설정하고 --master와 원사 - 클러스터를 설정하는 것과 같은 다양한 옵션을 시도했지만 아직 둘 이상의 서버에서 실행되는 것처럼 보이지는 않습니다.
--master local [8]과 같이 전달하여 하나 이상의 코어에서 실행할 수는 있지만 여러 노드에서 처리가 분배되지 않습니다.
import simplejson as json
from pyspark import SparkContext
sc = SparkContext("", "Joe Counter")
rrd = sc.textFile("hdfs:///tmp/twitter/json/data/")
data = rrd.map(lambda line: json.loads(line))
joes = data.filter(lambda tweet: "Joe" in tweet.get("text",""))
print joes.count()
그리고 같은 제출 명령을 실행하고 있습니다 :
그래서 같은 HDFS에서 매우 간단하게 파이썬 스크립트 처리 데이터가 내가 작업 실행을 보장하기 위해 할 수있는 일
spark-submit atest.py --deploy-mode client --master yarn-client
클러스터에서 병렬로?
이것이 사실이 아니라고 생각합니다. Pyspark는 원사 클러스터에서 작동 할 수 있습니다. –
Pyspark를 실행하려면. 시도해보십시오 : pyspark --deploy-mode client --master yarn-client – kennyut