2012-11-23 7 views
1

Mahout에 사용자/항목 특징 행렬이 있고 사용자의 loglikelihood 유사성을 유도했으며 3 개의 사용자 클러스터를 식별했다고 가정합니다. 이제 일련의 항목 (동일한 형식 및 동일한 항목 집합)을 가진 새로운 사용자가 있는데 어떻게 유사성 매트릭스 및 재 클러스터링 절차를 다시 계산하지 않고도이 세 클러스터 중 하나를 새 사용자에게 할당 할 수 있습니까? 문제는 현재 클러스터 중심을 사용하고 로그 유사성 또는 거리 측정을 계산할 때 더 이상 중심이 2 진수가 아닌 것입니다. 내가 중급자를 사용한다면, 모두 0이 될 위험이 있습니다. 이것에 접근하는 좋은 방법은 무엇입니까? MAhout에서 특별히 사용할 모델 기반 클러스터링이 있습니까?클러스터에 새로운 관측 값 할당

답변

1

클러스터에 대한 분류기는 어떻습니까?

0을 피하려면 대신 k-medoids를 사용할 수 있습니다. 여기서 중요한 차이점은 k-medoid가 데이터 세트에서 가장 중심적인 객체 을 선택할 것이므로 실제로 데이터 객체와 동일한 희박성을 갖습니다.

Mahout을 사용하지 않으므로 Mahout에서 사용할 수 있는지 여부는 알 수 없습니다. 내가 아는 한, 그것은 k-means 또는 k-medians보다 훨씬 더 계산 집약적입니다.

+0

감사합니다. 도움이되었습니다. – user1848018