0
각 기사마다 1000 개 이상의 기사가 포함 된 텍스트 코퍼스가 있습니다. 파이썬에서 Scipy를 사용하여 계층 적 클러스터링을 사용하여 관련 아티클의 클러스터를 생성하려고합니다. 이것은 내가Python에서 Scipy Hierarchy Clustering을 사용한 텍스트 클러스터링
# Agglomerative Clustering
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as hac
tree = hac.linkage(X.toarray(), method="complete",metric="euclidean")
plt.clf()
hac.dendrogram(tree)
plt.show()
클러스터링을 수행하는 데 사용되는 코드 내가
가 그럼 난 fcluster()
from scipy.cluster.hierarchy import fcluster
clustering = fcluster(tree,3,'maxclust')
print(clustering)
와 세 번째 수준에서 나무를 잘라이 음모를 가지고 나는이 출력을 얻었습니다 : [2 2 2 ..., 2 2 2]
내 질문은 어떻게 찾을 수 있습니까? 각 클러스터의 주제를 제안하기 위해 각 클러스터의 상위 10 개 단어를 자주 찾으십니까?
왜 3이 적절한 값이라고 생각합니까? –