2017-03-04 1 views
0

거의 50,000 개의 레코드가 포함 된 분석 데이터 세트를 분석하려고합니다. 분석 서버와 K-means 알고리즘을 사용했습니다. 그러나 문제는 대부분의 레코드가 하나의 클러스터 (거의 48,000 레코드)로 이동한다는 것입니다. 반면 SPSS와 같은 다른 응용 프로그램에서 클러스터링하면 수용 가능한 결과를 얻었습니다. 데이터 세트를 준비하고 특이 치를 제거했지만 문제는 여전히 해결되지 않습니다. 그래서,이 문제를 해결할 생각이 있는지 묻고 싶습니다.K-의 Singelton 클러스터는 sql 서버 ssas를 의미합니다.

답변

0

this technical documentation 문서를 확인하십시오. 그것에 따르면, "정규화"매개 변수의 기본 설정은 데이터의 정규 분포를 가정합니다. 그렇지 않은 경우이 설정을 변경해야합니다.

이것이 문제가 될지 확신 할 수 없지만 ...이 문서를 자세히 읽어 보면 두 알고리즘 구현 간의 다른 차이점을 알 수 있습니다.

관련 문제