2017-05-09 1 views
0

K- 평균을 고차원 데이터 세트 (CDR 데이터)와 함께 사용하려고했습니다.K 평균 클러스터링을 수행 한 후 각 클러스터에서 가장 대표적인/구별되는 기능을 찾는 방법은 무엇입니까?

클러스터링 후, 내가 보여줄 수있는 에 가장 유익한 기능을 각 클러스터을 표현하고자하는 해당 클러스터의 고객의 특성 대표/독특한. 예를 들어

,

클러스터 1 [높은 : call_duration], [낮음 : NUMBER_OF_FRIENDS], [높은 : call_at_night]

클러스터 2 : [낮음 : call_duration], [높음 : use_promot 이온]

클러스터 3 : [높은 : internet_usage] 내가 좋아하는 것

는 것을 알고 ...

질문 1 : 나는 그 정보 기능을 찾을 수있는 방법 각 클러스터를 나타낼 수 있습니까? 질문 2 : 많은 정보 기능이있는 경우 어느 것이 더 대표적인 지 측정하는 방법은 무엇입니까?

또 다른 문제점은 "값이 높거나 낮음을 측정하는 방법"입니다. 나의 현재 솔루션은 모든 클러스터의 무게 중심에서 모든 기능에 Z-정상화을 적용

은, 그때

  • < -2σ

      또는 > 2σ
    • (에 -2σ 특이하다고 가정 -1σ) 또는 (1σ는 2σ까지)는 의대를 1σ하는
    • -1σ/높은 낮은

    질문 3 IUM :이 측정은 의미가 있습니까? 제발 제안 해주세요.

  • 답변

    0

    클러스터를 판별하기위한 의사 결정 트리를 교육하십시오.

    또는 분류를위한 다른 기능 선택 방법. 이제 분류 문제입니다.

    관련 문제