0

나는 scikit-learn k-means 알고리즘을 실행하여 결과 중심을 얻었다. 새 문서 (초기 컬렉션에 없었 음)가 있고 모든 중심과 새 문서 사이의 거리를 계산하여 어느 클러스터에 배치해야 하는지를 알고 싶습니다.문서와 각 중심 (k-means) 사이의 거리를 계산하는 방법은 무엇입니까?

기능을 구현하는 기능이 내장되어 있습니까? 아니면 필자가 유사 기능을 수동으로 작성해야합니까?

답변

1

당신은 X 매트릭스의 각 샘플에 대한 가장 가까운 클러스터를 얻을 수있는 방법 predict를 사용할 수 있습니다

from sklearn.cluster import KMeans 

model = KMeans(n_clusters=K) 
model.fit(X_train) 
label = model.predict(X_test) 
+0

나는 또 다른 질문이이 X_test 희소 행렬이 X_train보다 같은 차원을해야합니까? TF-IDF 정규화를 사용하고 있기 때문에이 질문을합니다. X_test 매트릭스를 생성하기 위해 X_train 기능을 고려해야합니다. – diugalde

+0

같은 수의 샘플을 사용해야하지만 동일한 수의 샘플을 가져야합니다. –

+0

알겠습니다. 따라서 새 사전을 초기 사전에 추가하고 vectorizer.fit_transform()을 다시 사용한 다음 원하는 행만 예측 메서드에 전달해야합니다. – diugalde

관련 문제