K- 평균을 사용하여 약 1200 개의 이진 변수를 기반으로 약 12000 개의 요소를 클러스터하려고합니다. 기존의 거리 메트릭 (euclidean, manhattan, Hamming, Levenshtein)은 만족할만한 결과를 산출하지 못했습니다.거리가 희박한 매트릭스의 클러스터링 요소에 대한 거리 메트릭
다음과 같은 측정 항목을 고안했습니다.
DIST (X, Y) = P의 분 (X = 0 | Y = 1) P (Y = 0 | X = 1)
누구도 이러한 유형의 문제와 유사한 방법을 사용한 ? 이 측정 항목을 사용할 때 명백한 결함이 있습니까? 필자는 데이터 마이닝에 비교적 익숙하지 않으며 모든 피드백에 감사 할 것입니다.
감사합니다.