2017-12-21 4 views
0
rf = RandomForestClassifier().setFeaturesCol("features").setLabelCol("label") 
pipeline = Pipeline(stages=[tokenizer, hashingTF, idf, rf]) 
model = pipeline.fit(training) 
model.save(sc, '<path_to_save>') 

을 임의 숲 분류 모델을 저장 내가 예기치 않은 오류가 code.But 위를 사용하여 모델 파일을 저장하려고 -오류 Pyspark

TypeError: save() takes exactly 2 arguments (3 given) 

나는이 오류를 이해하지 않습니다. 나는 2 개의 인수만을 전달하지만 여전히이 오류가 발생합니다. 아무도 아이디어가 있습니까? 내가 여기서 뭘 잘못하고 있니?

답변

0

어떻게 작동하는지 모르겠습니다. 하지만 첫 번째 필드 인 'sc'를 제거하면 효과가 있습니다.

model.save('<path_to_save>') 

이 명령으로 모델 파일을 저장할 수 있습니다.

+0

왜 의아해하니? [docs] (http://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.RandomForestClassificationModel.save)에 따르면 올바른 방법입니다. 또한 Spark ML을 분명히 언급하고 있으며 MLlib (태그 편집)가 아닙니다. – desertnaut