2010-11-20 2 views
2

큰 데이터 샘플을 클러스터링하고 싶습니다. k는 MATLAB에서의 함수를 의미합니다. 문제는 모든 데이터가 지정된 클러스터 수로 정렬 된 행렬을 반환한다는 것입니다.k에서 클러스터 수 선택

어떤 클러스터가 최적인지 알 수 있습니까?

나는 최적의 클러스터가 될 수있는 동일한 수의 요소를 얻을 수 있다고 생각했지만 결코 발생하지 않았습니다. 오히려 내가 입력 한 숫자만큼 데이터를 클러스터링 할 수 있습니다.

도와주세요 ...

+3

@ user506710 : 아이디어를 얻으려면 http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set을보십시오. – zellus

답변

0

나는 읽고 나는이에 대한 답이 될 수 있다고 생각 : - 데이터가 너무 이론적으로 최선 데이터 세트가 될 것이다 온다 kmeans에서 우리는 수단에 따라 데이터를 분할하려고하는 각 파티션에는 같은 수의 데이터가 있습니다.

킬로미터 ++보다 나은 알고리즘 인 kmeans ++를 사용했습니다. kmeans는 랜덤 값을 초기화하지 않고 파티션 크기가 거의 동일해질 때까지 반복합니다. 이것은 3에 대한 2180,729,1219를 얻었고 4는 3024221556120을 얻었으므로 3을 최종 답으로 선택했습니다.