2014-05-21 5 views
2

P.Liang의 갈색 클러스터링 코드 link으로 놀고있었습니다. 그것을 시도하기 위해, 나는 "자존심과 편견"이라는 텍스트를 중심으로 클러스터를 만들었다. 내가 가지고있는 클러스터는별로 좋지 않았습니다. 몇 가지 예,갈색 클러스터 만들기


"면제 식별 공제 서비스 반환"
"부적절 경악 재미있는"
"주소 놀라게 공개적으로 불성실 한 자만 무례"

"기쁘게 참조를 시도하는 더 기분"

클러스터를 유도하기 전에 일부 사전 처리 (예 : 불용어 제거, lemmatizing)를 수행해야합니까?

답변

3

큰 값의 k를 사용하면 훨씬 더 나은 클러스터를 얻을 수 있습니다. 그런 다음 경로 접두사를 사용하여 클러스터 수를 줄입니다.

1

ybisk에는 좋은 제안이 있습니다. 실험을 재현하려고하면 더 큰 클러스터에서 더 나은 결과를 얻었습니다. 일부 클러스터는 해석하기 어려운,하지만 관계에 대한이 같은 명확한 패턴을 몇 가지가 있었다 :

자신의 사랑하는 자매의 아버지 어머니 친구의 동생, 이모 여동생의 딸이 어머니, 전 아버지, 형제의 이모 매너 삼촌 자매 , 딸 어머니의 사랑, 친구 정신 사촌 딸, 남편 캐서린, 형제, 자매. 자신, 아버지의 감정, 친구, 숙녀분 장남 친구. 캐서린의 자매, 편, 결혼, 의견, 친구, 지인, 딸, 사랑하는 아내, 딸. 허영 사촌,

lemmatizing 아마 클러스터를 개선하는 것이다 제거 구두점/대문자 (내 결과에 쉼표/​​기간 후행 중복 단어를 많이 알았어 야). 불용어 제거가 도움이되는지 확신 할 수 없으며 유용한 문맥 정보를 포함 할 수 있습니다 (예 : 일일 이름이 '자주 사용'과 같은 단어 근처에 표시됨).

관련 문제