텍스트 클러스터링을위한 k- 수단, 특히 영어 문장을 구현하려고합니다. 지금까지 각 문서 (문장)에 대한 용어 빈도 행렬이있는 지점에 있습니다. 텍스트 데이터에 대한 k- 수단의 실제 구현에 대해서는 다소 혼란 스럽습니다. 그것이 어떻게 작동해야하는지에 대한 나의 추측이 있습니다.k- 텍스트 클러스터링을위한 수단
모든 문장의 독특한 단어의 수를 알아낼 (많은 수의, 그것을
n
전화).(나는이 숫자에 대한 경계가 무엇인지를 결정하는 방법)을
k
n
차원 벡터 (클러스터)를 작성하고 일부 임의의 숫자와k
벡터의 값을 입력부터 유클리드 거리를 결정 임의
k
클러스터에q
문장의 각 등 클러스터를 재배치 (n
는 영어와 같은 매우 큰 경우,이 벡터의 유클리드 거리를 계산 않을 것 매우 비용이 많이 드는?)
통찰력을 가져 주셔서 감사합니다!