나는 유사성에 의해 함께 그룹화하려는 1000 개 이상의 키워드 목록을 가지고 있습니다.문자열의 감독되지 않은 클러스터링
이- "안뜰 가구"
- 는
을
"가구"와 "의자"용어가 함께 묶입니다.
내가 할 수있는 한 가지 방법은 미리 선택된 "중심"용어를 지정한 다음 Levenshtein 거리를 계산하고 kmeans를 사용하여 클러스터링하는 것입니다.
하지만 알아내는 데 관심이있는 것은 "의자"및 "가구"와 같은 중심 용어를 미리 지정하지 않으면 어떻게 할 수 있는지입니다.
감사합니다.