2017-09-04 2 views
0

가능한지 알고 싶습니다 계층 적 클러스터링다른 샘플 크기을 Python에서 사용 하시겠습니까? 보다 정확하게 와드의 최소 분산 방법.Python에서 다른 표본 크기의 계층 적 클러스터링

예를 들어, 길이가 다른 정수 A, B, C, D, E의 5 개 목록이 있습니다. 내가하고 싶은 일은 와드의 방법 (병합되는 클러스터의 분산 감소)에 따라이 5 가지 목록을 3 개의 그룹으로 그룹화하는 것입니다.

아무도 그렇게하는 방법을 알고 있습니까?

답변

0

우리는 고려할 수 있습니다 5 목록은 3 그룹으로 클러스터하려는 샘플입니다. 알고 계신 계층 적 클러스터는 입력 거리 행렬로 사용할 수 있습니다. 거리 행렬은 샘플 간의 쌍 거리 (또는 비 차이)를 평가합니다.

의미있는 거리 함수을 선택하여이 5x5 매트릭스를 구성해야합니다. 을 선택해야합니다. 이것은 샘플/정수가 나타내는 것에 크게 달려 있습니다. 샘플 길이가 일정하지 않으므로 유클리드 거리와 같은 메트릭을 계산할 수 없습니다.

예를 들어 목록에있는 정수를 클래스로 해석 할 수 있다면 Jaccard Index를 계산하여 일종의 비 유사성을 표현할 수 있습니다.

[1 2 3 4 5]와 [1 3 4] 3/5 (또는 2/5의 유사성 )의 인 Jaccard 유사성 인덱스있다.
0은 완전히 상이하고 1은 완전히 동일하다.
https://en.wikipedia.org/wiki/Jaccard_index

당신의 유사성 행렬이 계산되면 당신은에 계층 적 클러스터링을 적용 할 수 있습니다 (실제로는이 행렬은 대칭으로 5 2 = 10 개의 서로 다른 값을 선택 나타낸다).

중요한 부분은 문제에 적합한 거리 함수를 찾는 것입니다.

관련 문제