2015-02-07 4 views
0

나는 텍스트 클러스터링하는 동안 두싯 0.9 클러스터 덤프와 관련된 질문했다 - '클러스터 덤프의ClusterDump 0.9

https://mahout.apache.org/users/clustering/clusteringyourdata.html

한 경우는 출력에 최고 케이 kerms이며, 그것을 위해 당신은 돈 매개 변수 p (pointsDir)를 지정하십시오.

클러스터 덤프의 두 번째 경우는 매개 변수 p (pointsDir)를 지정하고 클러스터와 관련된 점을 얻는 경우입니다.

두 출력에는 동일한 정확한 클러스터 ID가 있지만 사례 1 - 상위 용어가 표시되는 레코드 수는 사례 2에 나타나는 레코드 수와 다릅니다 - 클러스터와 관련된 지점을 얻는 곳.

왜 이런 일이 발생합니까? 나는 특정 클러스터와 관련된 여러 포인트를보고 그 중 어느 것이 옳은지 알지 못한다는 것을 의미합니까?

이 상황을 본 사람이 있습니까?

미리 감사드립니다.

마지막으로 웹에이 문제에 대해 많이 검색 한 후, 나는이 문제를 논의 링크를 발견

답변

0

- 잡은 것을 내 관심은 있었지만

http://qnalist.com/questions/4874723/mahout-clusterdump-output

아래이 설명 - 나는를

생각을 에 의해보고 된 벡터의 수 (n =)와 -cl 옵션으로 실제로 클러스터링 된 포인트 수 사이의 불일치는 정상입니다. * 최종 반복에서 거리 측정 값과 이전 반복에서 계산 된 클러스터 중심을 기준으로 각 클러스터에 (분류 기준)으로 포인트가 할당됩니다 (관찰 기준). (n =) 값 은 클러스터에서 관찰 한 포인트 수를 반복으로 기록합니다. * 최종 반복 후 각 클러스터에 대해 에 대해 새 클러스터 센터가 계산됩니다. 그러면 가운데가 일정량만큼 이동하고 수렴 임계 값보다 작지 만 이동합니다. * 후속 분류 (-cl) 단계에서 이러한 새 센터 은 출력 할 포인트를 분류하는 데 사용됩니다. 이것은 필연적으로 다른 클러스터에 다른 클러스터에 할당되고 (관찰 된) (분류 된) 일부 지점을 야기하므로 출력 clusteredPoints는 이 최종 할당을 반영합니다. 작고 고안된 예제에서 클러스터링은 마지막 반복과 클러스터 된 지점 출력 사이에서 더 안정적 일 수 있습니다. 클러스터에서보고 한 벡터의 수 (n =)와 실제로 -cl 옵션으로 클러스터 된 수의 차이가 정상이라고 생각합니다. 마지막 반복에서는 거리 측정치 과 이전 반복에서 계산 된 클러스터 중심을 기준으로 각 클러스터에 (할당 된 것으로 간주)에 포인트가 할당 (관찰 됨)됩니다. (n =) 값은 해당 반복에서 클러스터가 "관찰 한"지점 수를 기록합니다. 마지막 반복 후에 각 클러스터에 대해 새 클러스터 센터가 으로 계산됩니다. 그러면 중심이 수렴 임계 값보다 작은 금액 인 만큼 이동하지만 이동합니다. 후속 분류 (-cl) 단계에서 이러한 새로운 센터를 사용하여 출력 할 지점을 분류합니다. 그러면 은 필연적으로 일부 지점을 다른 클러스터에 (분류 됨)에 할당 (관찰)하게되므로 출력 clusteredPoints가이 최종 할당을 반영합니다. 작은 고안의 예에서 클러스터링은 클러스터 된 지점의 최종 반복과 출력간에 더 안정적인 일 수 있습니다.

관련 문제