2017-05-14 2 views
0

WEKA에서 계층 적 클러스터링을 호출 할 때 (C#의 IKVM을 사용하고 있지만 중요하지 않다고 응답 할 수 있습니다), 생성 할 수있는 옵션이 있습니다. 뉴닉 (Newick) 포맷의 덤 드로 그램 (dendrogram)은 파싱을 시도 할 때 나뭇잎을 확인하고 각 휴가를 입력의 하나의 데이텀 (벡터)에 연결해야합니다.WEKA 계층 적 클러스터링 출력 - 리프 식별 모호성

예를 들어, 입력 arff은 다음과 같습니다

는 는 는

내가 Newick 형식으로 다음과 같은 dendrogram은 얻을 것

@RELATION points 


@ATTRIBUTE x REAL 
@ATTRIBUTE y REAL 

@DATA 
1.0,2.0 
3.0,1.0 
1.0,3.0 
2.0,1.0 
:이 점을 식별하는 방법을하지 분명하다

((2.0:1,3.0:1):1.49661,(1.0:1,1.0:1):1.49661) 

을 (첫 번째 지점이있다 2와 3이지만 두 번째 가지에는 1과 1이 있지만 어느 것이 어느 것이지는 분명하지 않다.

출력이 표시되는 방식을 변경하거나 추가 고유 속성을 추가하여 Newick 출력에서 ​​더 나은 방식으로 데이텀을 식별 할 수 있습니까?

+0

출력 결과를 오해하고 있다고 생각합니다. 출력이 각 지점을 나타내지는 않지만 특정 y를 나타낼 수 있습니다. –

답변

0

해결책을 찾았지만 모든 거리 함수에서 작동하지 않을 수 있지만 Weka 계층 적 클러스터링의 기본 구성으로 작동합니다. 해결 방법은 끝에 추가 문자열 특성을 추가하는 것입니다. 모든 계산에는 행이나 벡터의 고유 ID가 포함될 수 있으며,이 값은 WEKA에서 최종 그래프 (Newick dendrogram)를 출력하는 데 사용됩니다.

예 ARFF :

@RELATION points 

@ATTRIBUTE x REAL 
@ATTRIBUTE y REAL 
@ATTRIBUTE id STRING 

@DATA 
1,5,100 
2,6,200 
3,5,300 

이 다음 Newick가 발생합니다 :

(((100:1.41421,200:1.41421):-0.05358,300:1.36064):0.441,400:1.80164) 

을 그리고 마지막 속성을 무시하면,이 같은 정확한 클러스터가 발생할 것이지만 다른 이름 지정 잎의 경우 :

(((5.0:1.41421,6.0:1.41421):-0.05358,5.0:1.36064):0.441,6.0:1.80164) 

어느 것이 모호합니다.

관련 문제