1
에서 어휘를 추출하는 방법은 ID를의로 위의 코드는 인덱스 어휘의 목록을 인쇄합니다 다음과 같은 방법파이프 라인
fl = StopWordsRemover(inputCol="words", outputCol="filtered")
df = fl.transform(df)
cv = CountVectorizer(inputCol="filtered", outputCol="rawFeatures")
model = cv.fit(df)
print(model.vocabulary)
에 의해 CountVecotizerModel에서 어휘를 추출 할 수 있습니다.
는rm_stop_words = StopWordsRemover(inputCol="words", outputCol="filtered")
count_freq = CountVectorizer(inputCol=rm_stop_words.getOutputCol(), outputCol="rawFeatures")
pipeline = Pipeline(stages=[rm_stop_words, count_freq])
model = pipeline.fit(dfm)
df = model.transform(dfm)
print(model.vocabulary) # This won't work as it's not CountVectorizerModel
는 다음과 같은 오류 파이프 라인의 모델 속성을 추출하는 방법 그래서
print(len(model.vocabulary))
AttributeError: 'PipelineModel' object has no attribute 'vocabulary'
가 발생합니다 :
는 이제 다음과 같은 위의 코드의 파이프 라인을 만들었습니다?