1

K- 평균을 사용하여 약 1200 개의 이진 변수를 기반으로 약 12000 개의 요소를 클러스터하려고합니다. 기존의 거리 메트릭 (euclidean, manhattan, Hamming, Levenshtein)은 만족할만한 결과를 산출하지 못했습니다.거리가 희박한 매트릭스의 클러스터링 요소에 대한 거리 메트릭

다음과 같은 측정 항목을 고안했습니다.

DIST (X, Y) = P의 분 (X = 0 | Y = 1) P (Y = 0 | X = 1)

누구도 이러한 유형의 문제와 유사한 방법을 사용한 ? 이 측정 항목을 사용할 때 명백한 결함이 있습니까? 필자는 데이터 마이닝에 비교적 익숙하지 않으며 모든 피드백에 감사 할 것입니다.

감사합니다.

답변

1

모델을 만들려는 도메인이 무엇입니까? 클러스터링을 위해 도메인의 통찰력을 사용할 수 있습니까? 이 일반적인 설정에서 말할 수있는 것은 거의 없습니다. 보다 의미있는 기능을 먼저 얻으려면 나중에 dimension reduction을 시도하고 클러스터는 나중에 사용하지만 도메인 지식을 사용하면 여기에서 도움이 될 수 있습니다.

0

이진 속성보다 Jaccard의 거리를 사용할 수 있습니다. 는 인 Jaccard 거리가 될 것 인 Jaccard 계수

J = M11/(M11+M10+M01) 

것이다가 2 행 A 및 B.

M11 - is the number of attributes where both Ai=Bi=1 
M01 - is the number of attributes where Ai=0 and Bi=1 
M10 - is the number of attributes where Ai=1 and Bi=0 

비교된다 가정하자

D=(M01+M10)/(M11+M10+M01) 
관련 문제