Jupyter 노트북을 사용하여 pySpark에 대한 분석을하고 있습니다. 내 코드는 원래 sqlContext = SQLContext (sc)을 사용하여 데이터 프레임을 만들었지 만 이제는 윈도우 기능을 사용하기 때문에 HiveContext으로 전환했습니다.HiveContext createDataFrame이 pySpark (jupyter)에서 작동하지 않습니다.
내 문제는 dataframe을 만들려고 할 때 지금은 자바 오류 받고 있어요 것입니다 :이 후
## Create new SQL Context.
from pyspark.sql import SQLContext
from pyspark.sql import DataFrame
from pyspark.sql import Window
from pyspark.sql.types import *
import pyspark.sql.functions as func
sqlContext = HiveContext(sc)
은 내가 RDD에 내 데이터를 읽고, 내 DF에 대한 스키마를 만들 수 있습니다. 이제
## After loading the data we define the schema.
fields = [StructField(field_name, StringType(), True) for field_name in data_header]
schema = StructType(fields)
, 나는 DF를 빌드 할 때이 내가 오류입니다 :
## Build the DF.
data_df = sqlContext.createDataFrame(data_tmp, schema)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
...
/home/scala/spark-1.6.1/python/pyspark/sql/context.pyc in _get_hive_ctx(self)
690
691 def _get_hive_ctx(self):
--> 692 return self._jvm.HiveContext(self._jsc.sc())
693
694 def refreshTable(self, tableName):
TypeError: 'JavaPackage' object is not callable
지금까지 운없이 인터넷 검색을 한이. 어떤 조언을 크게 주시면 감사하겠습니다.
당신이 직접 불꽃을 구축했습니다처럼 보이는, 내가 맞다? 이 경우 해당 메소드에 대한 세부 정보를 제공 할 수 있습니까? – zero323
@ zero323 예,이 튜토리얼은 매우 유사합니다. http://blog.prabeeshk.com/blog/2014/10/31/install-apache-spark-on-ubuntu-14-dot-04 /. 그것은 설정 문제처럼 보이나요? 이 문제를 해결하는 방법에 대한 조언이 있으면 다시 설치해 드리겠습니다. 감사. –