2013-05-22 5 views
3

저는 데이터 마이닝 초보자이며 고차원 데이터 세트 (하위 세트는 아래에 표시)에 대한 도움이 필요합니다. 실제로 30 차원과 수천 행이 있습니다.다차원 데이터 클러스터링

작업은 클러스터링 방법과이 데이터에서 유사성 메트릭을 계산할 수 있는지 확인하는 것입니다. 나는 SOM과 코사인 유사성 접근법을 보았지만이 문제에 접근하는 방법을 모르고있다.

p.s. R이나 비슷한 통계 패키지에 익숙하지 않아서 C#/.NET 기반 라이브러리의 일부 포인터에 감사 할 것입니다.

"ROW" "CPG" "FSD" "FR" "CV" "BI22" "MI99" "ME" "HC" "L1" "L2" "TL"  
1 298 840 3.80 5.16 169.17 69 25.0 0.82 125 453 792 
2 863 676 4.09 4.28 97.22 63 18.5 0.85 172 448 571 
3 915 942 7.04 5.33 33.01 72 35.1 0.86 134 450 574 

답변

4

은 당신이 할 수있는 다차원 스케일링 플롯 (MDS)은 매우 간단로 알려져있다 찾고있는 것을 생각하지만, 일부 선형 대수/최적화 물건을 할 수있는 라이브러리가 필요합니다.

1 단계는 거리 매트릭스를 계산하는 것입니다. 이것은 모든 데이터 포인트 사이의 쌍으로 된 유클리드 거리의 매트릭스입니다.

2 단계는 1 단계에서 계산 된 것과 가장 가까운 거리 행렬을 형성하는 N 개의 벡터 또는 피쳐 (일반적으로 2 차원 플롯의 경우 2 개)를 찾는 것입니다. 이는 N 개의 최대 고유 값을 가진 고유 벡터를 사각형 거리 매트릭스. 원하는 언어로이 작업을 수행 할 수있는 선형 대수 라이브러리를 찾을 수 있습니다. 저는 항상 R 함수 cmdscale()을 사용했습니다 : http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html

+0

고맙습니다. – Mikos