2015-01-27 1 views
3

만 유사성 행렬을 아는 클러스터의 가장 좋은 번호 찾기. 배경으로, 나는 거리와의 상호 상관 관계를 이용하여 요소를 클러스터링하는 것을 목표로 삼는다. 방법론에 따라 here에 나와 있으며, 상관 행렬을 사용하여 hclust에 입력으로 제공되는 비평 행렬을 계산합니다. 이것은 잘 작동합니다.나는 유사성 행렬을 가지고 있고 나는 소스 데이터 자체를 알고하지 않는 유일한 입력으로 그 매트릭스를 사용하여 계층 적 클러스터링을 실행하려면 R

내 질문은 : 내가 클러스터의 최적의 번호를 찾을 어떻게? 비 유사 매트릭스를 알고 으로 계산할 수있는 인덱스가 있습니까? NbClust의 색인은 소스 데이터가 필요합니다 - 비평 행렬을 아는 것만으로는 충분하지 않습니다. R에서 사용할 수있는 다른 방법이 있습니까?

+2

최적 또는 최적의 클러스터 수는 어떻게 정의합니까? – LauriK

+0

@LauriK [NbClust] (http://cran.r-project.org/web/packages/)에서 사용할 수있는 인덱스와 같은 많은 인덱스를 사용하여 클러스터 수를 선택했습니다. NbClust/NbClust.pdf). 내 문제는 원래 데이터 세트가 필요하지는 않지만 비평 행렬 만 필요한 인덱스를 찾아야한다는 것입니다. – Andrea

+0

계층 적 클러스터링이 귀하의 질문과 어떤 관련이 있습니까? HC –

답변

0

그냥 빨리 NbClust 설명서에서 보면 원본 데이터 원본을 생략 한 차이 매트릭스를 제공하는 것이 가능합니다. 매트릭스가 공급되는 (여기서 XYZ라고 함) 등

NbClust(data = NULL, diss = XYZ, distance = NULL ...는 데이터와의 거리를 NULL로 설정한다. 이것은 기능 사용법에 설명되어 있습니다. 그러면 NbClust은 사용자가 파티션 인덱스를 생성 할 수있게됩니다.

+0

에 대해 여러 클러스터를 설정할 필요가 없습니다. NbClust 패키지는 데이터 세트의 최적 클러스터 수를 결정하는 데 필요한 30 개의 인덱스를 제공하고 모든 조합을 변경하여 얻은 다양한 결과에서 최상의 클러스터링 체계를 사용자에게 제안/제공합니다. 클러스터 수, 거리 측정 값 및 클러스터링 메소드가 있습니다. –

+0

** 관련 클러스터 수 **에 대한 실제 게시 및 자세한 설명은 다음을 참조하십시오. [NbClust : 데이터 세트의 관련 클러스터 수를 결정하기위한 R 패키지] (https://www.jstatsoft.org/ article/view/v061i06), 저자는 제출 된 보충 자료에 시뮬레이션 된 데이터를 제공하기까지합니다. –

관련 문제