Stata에서 cluster kmeans
명령 사용에 대한 질문이 있습니다. 소프트웨어의 버전 13을 사용하고 있습니다.Stata에서 클러스터 kmeans 명령 사용
cluster
명령을 사용할 때 일관된 그룹화를 얻으려면 명령 전에 시드를 설정해야한다는 것을 알고 있습니다. 제 질문은 다른 씨앗을 설정하고 동일한 cluster
명령을 실행할 때 생성되는 그룹이 완전히 다른 구성을 갖는 이유입니다. 나는 다른 하나에 십자가 탭을 달아서 이것을 모은다. tab _clus_1 _clus_2
, 여기서 각 클러스터링은 다른 집합 시드 후에 생성되었으며 많은 경우가 다르게 그룹화 된 것을 볼 수 있습니다.
cluster
명령이 사용하는 알고리즘에 대해 거의 알지 못하기 때문에 이것은 생성되는 그룹화 변수의 안정성에 대한 우려를 유발합니다. 나는 616 개의 관측치의 데이터 세트를 사용하고 있고 클러스터 명령어 41 개의 변수를 공급하고 있는데 그 중 많은 수가 인형 (0/1)이거나 0과 1 사이의 범위에 속하므로이 가변성 부족이 씨앗을 다른 숫자로 설정할 때마다 매우 다른 그룹화가 생성됩니다.
이것은 프로그래밍에 관한 것보다 통계에 관한 것입니다. 그러나 (거의) 반복적 인 클러스터링을 얻을 수 없다면 매우 간단하게 클러스터 분석이 무의미 할 것입니다. 반면에 0-1 변수를 사용하면 클러스터링이 쉬워지고 어렵지 않게됩니다. 관련 메모에서 코드가없는 질문은이 포럼에서 주제 밖의 것으로 널리 간주되며 Cross-Validated로 잘 전달됩니다. –
알고리즘에 익숙하지 않다고 언급 했으므로 클러스터 레이블이 완전히 임의적이라는 점에 유의하고 싶습니다. 여러 번 kmeans를 실행하고 매번 다른 레이블을 얻는 것이 클러스터링이 다르다는 것을 의미하는 것은 아니며 다른 임의의 레이블이 지정되었다는 것을 의미합니다. 유익한 유일한 것은 각 레이블 내의 사례 그룹입니다. 이것이 너무 명백한 경우 사과드립니다. –