2013-10-01 7 views
1

Stata에서 cluster kmeans 명령 사용에 대한 질문이 있습니다. 소프트웨어의 버전 13을 사용하고 있습니다.Stata에서 클러스터 kmeans 명령 사용

cluster 명령을 사용할 때 일관된 그룹화를 얻으려면 명령 전에 시드를 설정해야한다는 것을 알고 있습니다. 제 질문은 다른 씨앗을 설정하고 동일한 cluster 명령을 실행할 때 생성되는 그룹이 완전히 다른 구성을 갖는 이유입니다. 나는 다른 하나에 십자가 탭을 달아서 이것을 모은다. tab _clus_1 _clus_2, 여기서 각 클러스터링은 다른 집합 시드 후에 생성되었으며 많은 경우가 다르게 그룹화 된 것을 볼 수 있습니다.

cluster 명령이 사용하는 알고리즘에 대해 거의 알지 못하기 때문에 이것은 생성되는 그룹화 변수의 안정성에 대한 우려를 유발합니다. 나는 616 개의 관측치의 데이터 세트를 사용하고 있고 클러스터 명령어 41 개의 변수를 공급하고 있는데 그 중 많은 수가 인형 (0/1)이거나 0과 1 사이의 범위에 속하므로이 가변성 부족이 씨앗을 다른 숫자로 설정할 때마다 매우 다른 그룹화가 생성됩니다.

+1

이것은 프로그래밍에 관한 것보다 통계에 관한 것입니다. 그러나 (거의) 반복적 인 클러스터링을 얻을 수 없다면 매우 간단하게 클러스터 분석이 무의미 할 것입니다. 반면에 0-1 변수를 사용하면 클러스터링이 쉬워지고 어렵지 않게됩니다. 관련 메모에서 코드가없는 질문은이 포럼에서 주제 밖의 것으로 널리 간주되며 Cross-Validated로 잘 전달됩니다. –

+0

알고리즘에 익숙하지 않다고 언급 했으므로 클러스터 레이블이 완전히 임의적이라는 점에 유의하고 싶습니다. 여러 번 kmeans를 실행하고 매번 다른 레이블을 얻는 것이 클러스터링이 다르다는 것을 의미하는 것은 아니며 다른 임의의 레이블이 지정되었다는 것을 의미합니다. 유익한 유일한 것은 각 레이블 내의 사례 그룹입니다. 이것이 너무 명백한 경우 사과드립니다. –

답변

0

클러스터링하는 변수가 모두 2 진 또는 인수 변수 인 경우 잠재적 클래스 클러스터링을 사용하여보다 안정적인 솔루션을 찾을 수 있습니다.

STATA Windows 플랫폼에만 사용할 수있는, http://methodology.psu.edu/downloads/lcastata에서 STATA 대 (1) gllamm 소피아 라베-Hesketh 의해 프로그램 STATA 내에서 SSC 볼, 또는 (2) LCAplugin 통해 잠상 클래스 분석을 수행 할 수있다.

최대 매트릭스 크기 제한 (즉, 800)으로 인해 LCAplugin이 Stata/IC에서 작동하도록 설계되지 않았지만 set matsize 800 인 경우 616 개의 사례와 41 개의 변수 만 있기 때문에 문제가 해결됩니다. Stata의 풍미가 높으면 (예 : SE 또는 MP), LCAplugin은 최대 매트릭스 크기 제한으로 귀찮게해서는 안됩니다.

관련 문제