2011-01-23 4 views
1

통계표를 만들 수 있습니다. 일부 영어 텍스트 또는 책에서 각 단어가 얼마나 많이 사용되는지 상상해보십시오. 도서관의 각 텍스트/도서에 대한 통계를 수집 할 수 있습니다. 이 통계를 서로 비교하는 가장 간단한 방법은 무엇입니까? 매우 통계적으로 유사한 어휘집을 가진 텍스트의 집단/집단을 어떻게 찾을 수 있습니까?영어 텍스트 어휘 비교

답변

1

먼저 어휘를 정규화해야합니다 (예 : 두 어휘가 모두 인지 확인하십시오). 어휘입니다.

그런 다음 Hellenger distance 또는 cosine similarity과 같은 유사성 메트릭을 사용하여 두 어휘를 비교할 수 있습니다.

기계 학습 패키지 Weka을 살펴 보는 것도 좋은 방법 일 수 있습니다.

This book은 기계 학습을위한 훌륭한 자료이며 유용 할 수 있습니다.

+0

을, 그러나 나는 어휘 알고리즘에 초점을 찾지 못했습니다. 내가 잘못? –

0

쿨백 라이 블러 거리를 고려해보십시오. 참고로, 커버와 토마스의 18 페이지 참조 : 나는이 책을 통해 간단히 살펴 보았다

Chapter 2, Cover and Thomas