2013-06-05 2 views
0

R 및 SAS를 사용하여 클러스터 분석을 수행 할 때 실제로 결과가 다릅니다.R 및 SAS : 클러스터링 분석에 대한 다른 결과

나는 그 결과가 무작위 적이기 때문에 약간의 차이는 있지만 그 차이는 매우 크다는 것을 알고있다.

SAS의 유명한 CARS 데이터 세트로 테스트를 수행합니다. R로

, I는 않는 :

kmeans(CARS[,c(8,10)],5) 

결과 :

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run; 

결과 (between_SS/total_SS = 93.2 %), SAS로

, I 그렇게 : 예상되는 전체 대략적인 R- 제곱 = 0.96079

차이는 더 작지만 여전히 차이가 있습니다. 나는 몇 번 테스트를 수행하고 결과는 여전히 동일합니다.

이 차이는 어디에서 발생합니까?

+3

코드 없음, 데이터 없음. 죄송합니다.이 질문은 현재 양식에서 답변 할 수 없습니다. –

+0

R에서 클러스터 분석을 어떻게합니까? 왜 당신은 같은 결과를 기대합니까? 동일한 알고리즘이 R 및 SAS 기능에 사용된다고 생각하십니까? 기본 값이 같거나 매개 변수를 명시 적으로 설정 했습니까? – Roland

+0

또한 동일한 알고리즘을 여러 가지 구현하면 차이가 발생할 수도 있습니다. –

답변

2

문서에서 확신 :

. SAS 문서는 "가장 가까운 센트 로이드 정렬"방법을 모호하게 설명합니다. 나는 이것에 관해서는 아무것도 알지 못하지만 다른 클러스터링 기능 (예 : hclust)이나 다른 패키지를 비교해 볼 수 있습니다.

+0

SAS가 R- 제곱 대신 "대략적인 예상 오버 オール R- 스퀘어"라는 용어를 사용하는 이유를 알고 계십니까? 차이점은이 근사치 때문일 수 있지만 SAS와 함께 사각형의 합계를 찾는 방법은 없습니다. – Ricol

+0

불행히도, 나는 그렇지 않습니다. – Thomas

+0

나는 '다른 클러스터링 기능을 사용해보십시오.' 그래도 똑같은 결과가 나올지 모르겠다. 클러스터 분석은 정확한 과학이 아닙니다. – Joe