2013-07-18 3 views
1

K-Means Algorithm을 구현하려고하는데 벡터 부분에 대해 혼란 스럽습니다. 이것은 내가 무슨 짓을K-Means 클러스터링에서 형태소 분석 사용

: 각 문서에 대한

, 내가 거기에 각 단어에 대한 TF-IDF를 생성하고 저장 STL 맵에서 그. 그런 다음 알고리즘에 대한 코사인 유사성을 실제 단어와 함께 사용했습니다.

어디에서 형태소 분석 부분을 사용해야합니까?

먼저 단어를 줄이고 줄기 단어의 tf-idf를 계산해야합니까?

알고리즘에서 줄기 단어 만 사용해야합니까?

형태소 분석을 사용하면 결과가 저하되지 않습니까?

+0

http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html – user1929959

+0

@ user1929959를 참조하십시오.이 페이지에는 형태소 분석에 대한 언급이 없습니다. –

답변

1

클러스터링 목표에 따라 다릅니다.
한 번 프로젝트에서 우리는 단어에 가능한 유사 콘텐츠가있는 두 문자열 사이에 일치 점수를 제공해야했습니다. 우리는 먼저 줄기를 제거한 다음 문자열 사이에 일치하는 단어의 수를 계산했습니다. 이러한 유형의 일치가 문제에서 의미가있는 경우 먼저 형태소 분석을하는 것이 좋습니다.
물론 줄기를 취하면 정보가 손실되지만 잡음을 줄이는 데는 도움이됩니다.

1

일반적으로 스템 밍은 실제로 각 스템의 tf-idf를 계산하기 전에 수행됩니다.

마지막 두 가지 질문에 대해, 나는 당신이하는 일에 달려 있다고 말하고 싶습니다. 다른 방법 (형태소 분석, 원 단어, lemmatization)을 시도하고 어떤 방법으로 최상의 결과를 얻을 수 있는지 확인해야합니다.

클러스터링의 경우 주석이 달린 문서 세트를 사용하여 방법을 시도한 다음 각 방법에 대해 confusion matrix을 설정해야 문제에 가장 적합한 방법을 결정하는 데 도움이됩니다.

관련 문제