K- 평균을 고차원 데이터 세트 (CDR 데이터)와 함께 사용하려고했습니다.K 평균 클러스터링을 수행 한 후 각 클러스터에서 가장 대표적인/구별되는 기능을 찾는 방법은 무엇입니까?
클러스터링 후, 내가 보여줄 수있는 에 가장 유익한 기능을 각 클러스터을 표현하고자하는 해당 클러스터의 고객의 특성 대표/독특한. 예를 들어
,클러스터 1 [높은 : call_duration], [낮음 : NUMBER_OF_FRIENDS], [높은 : call_at_night]
클러스터 2 : [낮음 : call_duration], [높음 : use_promot 이온]
클러스터 3 : [높은 : internet_usage] 내가 좋아하는 것
는 것을 알고 ...
질문 1 : 나는 그 정보 기능을 찾을 수있는 방법 각 클러스터를 나타낼 수 있습니까? 질문 2 : 많은 정보 기능이있는 경우 어느 것이 더 대표적인 지 측정하는 방법은 무엇입니까?
또 다른 문제점은 "값이 높거나 낮음을 측정하는 방법"입니다. 나의 현재 솔루션은 모든 클러스터의 무게 중심에서 모든 기능에 Z-정상화을 적용
은, 그때
-
또는
> 2σ는
- (에 -2σ 특이하다고 가정 -1σ) 또는 (1σ는 2σ까지)는 의대를 1σ하는
- -1σ/높은 낮은
질문 3 IUM :이 측정은 의미가 있습니까? 제발 제안 해주세요.