-1

여러 버킷이 있습니다. 각 버킷에는 많은 태그 (문자열)가 있습니다. 유사성 또는 중첩에 따라 버킷을 함께 클러스터링하는 방법은 무엇입니까?어떻게 문자열의 버킷을 클러스터링 할 수 있습니까?

예.

버킷 A : '타조', '참새', '벌새', '얼룩말', '블루 제이'

버킷 B : '바나나', '수박', '포도', '당근'

버킷 C : '셀러리', '상추', '시금치', '바나나', '당근'

버킷 D : '참새', '개', '고양이', '사자', '코끼리 ','horse '

아주 작은 예제에서 A와 D는 각각 b (바나나 때문에 바나나 & 당근 때문에)의 B + C는 하나의 클러스터를 만듭니다. e를 클러스터링 할만큼 충분하지 않기 때문에 자체 클러스터에 있어야합니다.

답변

1

계층 적 클러스터링이있는 Jaccard와 같은 집합 기반 거리를 사용할 수 있습니다.

관련 문제