K-Means Algorithm을 구현하려고하는데 벡터 부분에 대해 혼란 스럽습니다. 이것은 내가 무슨 짓을K-Means 클러스터링에서 형태소 분석 사용
: 각 문서에 대한
, 내가 거기에 각 단어에 대한 TF-IDF를 생성하고 저장 STL 맵에서 그. 그런 다음 알고리즘에 대한 코사인 유사성을 실제 단어와 함께 사용했습니다.
어디에서 형태소 분석 부분을 사용해야합니까?
먼저 단어를 줄이고 줄기 단어의 tf-idf를 계산해야합니까?
알고리즘에서 줄기 단어 만 사용해야합니까?
형태소 분석을 사용하면 결과가 저하되지 않습니까?
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html – user1929959
@ user1929959를 참조하십시오.이 페이지에는 형태소 분석에 대한 언급이 없습니다. –