2012-05-17 9 views
0

k- 수단으로 센터를 업데이트하는 데 문제가 있습니다. 내 데이터 노호 같다 : I 행함으로써 행을 처리 할 필요k-의 업데이트 센터는 코사인 유사성을 사용합니다.

 
    1 0 5 6 2 3 5 7 
    2 5 0 8 6 1 0 5 . . . 
    2 5 6 4 2 1 0 8 
     . 
     . 

(예 : 하나의 행 중심). 코사인 유사성으로 클러스터를 계산했습니다. 이제 각 클러스터의 중심을 업데이트하고 싶습니다.하지만 어떻게 할 수 있는지 모르겠습니다. 저를 도와주십시오. (각 행은 문서 내의 다른 단어의 반복 횟수를 포함한다.) 감사

답변

1

K-수단이없는 다른 메트릭 들어 유클리드 disance 위해 설계된다.

처음에는 쉽게 다른 거리 함수를 사용할 수있는 것처럼 보이지만 문제는 실제로 평균 함수입니다.

유클리드 거리의 경우 산술 평균은 분산을 최소화하므로 알고리즘이 종료됩니다. Manhattan distance의 경우에는 대신 medoid를 사용할 수 있습니다 (k-medoids 클러스터링 참조).

그러나 임의의 다른 거리 함수를 던지면 k-means가 무한 루프로 진행될 수 있습니다 (즉, 수렴 중지). 다른 거리를 사용할 때는 조심해야하며 k-means보다 더 고급/최신 알고리즘을 사용하는 것이 좋습니다.

+0

감사를 참조 그래서 어떻게 같은 입력 데이터에 대한 유클리드 거리를 사용해야합니까? – arash

+0

그냥 해보세요. 유클리드 거리를 계산하는 데에는 여러 가지 다른 방법이 없습니다. –

+0

삼각형 부등식을 충족시키는 한 거리 메트릭이 사용되는 이유는 무엇입니까? 또한, k- 평균에서 코사인 거리를 사용하면 수렴이 없음을 말하고 있습니까? (나는 코사인 거리를 구체적으로 요구하고있다). 감사! – Spacey

관련 문제