2014-01-27 5 views
-1

클러스터링 분석을 수행하고 있습니다. 서로 관련이있는 많은 변수가 있습니다. 알고 싶습니다. 상관 된 변수를 포함시키는 것이 좋습니까? 이 경우 어떻게해야할까요? 사전에 모든상관 관계 변수로 클러스터링

+0

클러스터링 전에 선형 상관 관계를 제거하기 위해 데이터 집합에서 PCA를 실행할 수 있습니다. –

+0

나는 PCA를 사용한 적이 없다.이 방법은 상관 관계가있는 변수를 제거합니까? 더 자세히 설명해 주시겠습니까? – Arushi

답변

2

첫째, 명백한 접근에

감사 :

  • 당신이 그들 모두를 필요하거나 그들 중 일부

  • 희게 (역 상관)을 멀리 떠날 수 있는지 여부를 평가 PCA를 통해 데이터를 얻으십시오. 어쨌든 k- 수단의 모범 사례입니다.

두 번째로 상관 클러스터링을 조사하여 데이터 세트 내에서 서로 다른 상관 관계를 나타내는 클러스터를 식별하려고 할 수 있습니다. 데이터가 전 세계적으로 상호 연관성이없는 경우, 미백은 이러한 국부 상관 관계를 제거하지 않습니다. 상관 클러스터링은 이러한 패턴을 발견하기위한 것입니다.

+0

PCA를 사용한 적이 없습니다.이 방법은 상관 관계가없는 데이터를 선택합니까? – Arushi

+1

PCA는 데이터를 선택하지 않습니다. 데이터를 투영 한 후 공분산 행렬이 항등 행렬이되도록 투영 행렬을 계산합니다. 데이터가 이미 상관 관계가없는 경우 PCA는 단위 행렬을 투영으로 반환합니다. –

+0

그래서 PCA를 사용하여 상관 관계가없는 변수를 선택할 수 있습니까? – Arushi