아래는 내 dataframe 및 코드에는 속성 맵이없는 내가 TEMP = 줄을 실행하고 언제 오류가 아래 얻을 아래 Pyspark ML 오류 객체는
df=
a b c d
1 3 10 110
2 5 12 112
3 6 17 112
4 8 110 442
내 코드
spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').getOrCreate()
sqlCtx=SQLContext(spark)
from pyspark.ml.linalg import DenseVector
from pyspark.mllib.regression import LabeledPoint
temp = df.select("a","b").map(lambda line:LabeledPoint(line[0],[line[1:]]))
입니다
Error:Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera1-
1.cdh5.7.0.p0.120904/lib/spark2/python/pyspark/sql/dataframe.py", line 964, in __getattr__
"'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
AttributeError: 'DataFrame' object has no attribute 'map'
Cloudera와 함께 pyspark 2.1을 사용 중입니다. 5.10
,210나는 링크를 참조하여 위의 스크립트를하고있는 중이 야 :
https://databricks.com/product/getting-started-guide/machine-learning
이 문제를 해결 도와주세요.
감사합니다. 정말로 당신의 충고를 받아 들일 것입니다. 여기에서는 패키지를 가져 오는 것이 이해가되지 않는 이유가되었던 기능을 얻으려고했습니다. – user3292373
언제나 기꺼이 도와 드리겠습니다. 나는 _mysib_보다 _pyspark.ml_ 라이브러리를 선호한다. 기능이 누락 된 경우 알려 주시기 바랍니다. –