2017-01-23 1 views
2

스파크와 팬더에 대한 멍청한 질문이 있습니다. 팬더, numpy 등을 사용하고 싶습니다. spark가 있지만 lib를 가져올 때 오류가 있습니다. PLZ 도와 줄 수있어?스파크와 팬더 사용

ImportError: No module named pandas 

어떻게 사용할 수 팬더 : 이이 오류 내 코드

from pyspark import SparkContext, SQLContext 
from pyspark import SparkConf 
import pandas 

# Config 
conf = SparkConf().setAppName("Script") 
sc = SparkContext(conf=conf) 
log4j = sc._jvm.org.apache.log4j 
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR) 
sqlCtx = SQLContext(sc) 

# Importation of csv out of HDFS 
data_name = "file_on_hdfs.csv" 
data_textfile = sc.textFile(data_name) 

입니까? 로컬 모드가 아닙니다.

답변

4

스파크에는 RDD에서 만들 수있는 Dataframe 개체가 있습니다.

numpy와 같은 라이브러리를 계속 사용할 수 있지만 먼저 설치해야합니다.

+0

그것은 가져 오거나 설치하거나 스파크 제출로 패키지를 밀어 가능? – Zop

+1

패키지는'pyspark' 서버 측에서 사용할 수 있어야합니다. 'spark-submit'은 의존성 (dependencies), 라이브러리 등이 아닌 스크립트 만 전송합니다. – rtkaleta

1

터미널에 pip list|grep 'pandas' 명령으로 상자에 판다가 설치되어 있는지 확인하십시오. 일치하는 항목이 있다면 apt-get update을 입력하십시오. 다중 노드 클러스터를 사용하는 경우 예, 모든 클라이언트 상자에 팬더를 설치해야합니다.

더 나은

는 DataFrame의 불꽃 버전을 시도,하지만 여전히 팬더를 사용하려는 경우 위의 방법은

3

당신은이 문제에 대한 아파치 화살표를 사용하여 작동합니다.

Apache Arrow

그것은 초기 버전입니다하지만 (볼) 미래에 더 강력한 될 것입니다. 설치의

: click