다차원 데이터 클러스터링

저는 데이터 마이닝 초보자이며 고차원 데이터 세트 (하위 세트는 아래에 표시)에 대한 도움이 필요합니다. 실제로 30 차원과 수천 행이 있습니다.다차원 데이터 클러스터링

작업은 클러스터링 방법과이 데이터에서 유사성 메트릭을 계산할 수 있는지 확인하는 것입니다. 나는 SOM과 코사인 유사성 접근법을 보았지만이 문제에 접근하는 방법을 모르고있다.

p.s. R이나 비슷한 통계 패키지에 익숙하지 않아서 C#/.NET 기반 라이브러리의 일부 포인터에 감사 할 것입니다.

"ROW" "CPG" "FSD" "FR" "CV" "BI22" "MI99" "ME" "HC" "L1" "L2" "TL"  
1 298 840 3.80 5.16 169.17 69 25.0 0.82 125 453 792 
2 863 676 4.09 4.28 97.22 63 18.5 0.85 172 448 571 
3 915 942 7.04 5.33 33.01 72 35.1 0.86 134 450 574

출처

2013-05-22 Mikos

은 당신이 할 수있는 다차원 스케일링 플롯 (MDS)은 매우 간단로 알려져있다 찾고있는 것을 생각하지만, 일부 선형 대수/최적화 물건을 할 수있는 라이브러리가 필요합니다.

1 단계는 거리 매트릭스를 계산하는 것입니다. 이것은 모든 데이터 포인트 사이의 쌍으로 된 유클리드 거리의 매트릭스입니다.

2 단계는 1 단계에서 계산 된 것과 가장 가까운 거리 행렬을 형성하는 N 개의 벡터 또는 피쳐 (일반적으로 2 차원 플롯의 경우 2 개)를 찾는 것입니다. 이는 N 개의 최대 고유 값을 가진 고유 벡터를 사각형 거리 매트릭스. 원하는 언어로이 작업을 수행 할 수있는 선형 대수 라이브러리를 찾을 수 있습니다. 저는 항상 R 함수 cmdscale()을 사용했습니다 : http://stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html

출처

2013-05-22 19:59:41 qwwqwwq

고맙습니다. – Mikos

다차원 데이터 클러스터링

답변

관련 문제