0
pyspark 설정을 시작하면 웹에서 즐겁게 액세스 할 수있는 Jupyter 노트가 만들어집니다. 또한 'sc'및 'spark'- 컨텍스트와 같은 객체를 자동으로 생성합니다. 이 객체가 어떻게 초기화되는지 무시할 수 있습니까?jupyter notebook에서 pyspark 기본 컨텍스트를 설정하는 방법은 무엇입니까?
pyspark 설정을 시작하면 웹에서 즐겁게 액세스 할 수있는 Jupyter 노트가 만들어집니다. 또한 'sc'및 'spark'- 컨텍스트와 같은 객체를 자동으로 생성합니다. 이 객체가 어떻게 초기화되는지 무시할 수 있습니까?jupyter notebook에서 pyspark 기본 컨텍스트를 설정하는 방법은 무엇입니까?
순수 파이썬 커널을 jupyter에서 시작하십시오. 그런 다음 스파크 및 pyspark에 대한 환경 변수를 추가하고 앞에 추가 sys.path
을 pyspark libs와, 예를 들면 :
from pyspark.sql.session import SparkSession
spark = (SparkSession.builder
.appName('picapica')
.config('spark.speculation', 'true')
.getOrCreate())
:
import os, sys
os.environ['SPARK_HOME'] = '/home/mario/spark-2.1.0-bin-hadoop2.7'
os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[2] --driver-memory 2g pyspark-shell"
os.environ['PYSPARK_PYTHON'] = '/usr/bin/python3'
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip')
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python')
은 그럼 당신은 예를 들어, jupyter 세포 내에서 스파크 초기화를 사용자 정의 할 수 있습니다