통계표를 만들 수 있습니다. 일부 영어 텍스트 또는 책에서 각 단어가 얼마나 많이 사용되는지 상상해보십시오. 도서관의 각 텍스트/도서에 대한 통계를 수집 할 수 있습니다. 이 통계를 서로 비교하는 가장 간단한 방법은 무엇입니까? 매우 통계적으로 유사한 어휘집을 가진 텍스트의 집단/집단을 어떻게 찾을 수 있습니까?영어 텍스트 어휘 비교
1
A
답변
1
먼저 어휘를 정규화해야합니다 (예 : 두 어휘가 모두 인지 확인하십시오). 어휘입니다.
그런 다음 Hellenger distance 또는 cosine similarity과 같은 유사성 메트릭을 사용하여 두 어휘를 비교할 수 있습니다.
기계 학습 패키지 Weka을 살펴 보는 것도 좋은 방법 일 수 있습니다.
This book은 기계 학습을위한 훌륭한 자료이며 유용 할 수 있습니다.
0
나는 Lucene (http://lucene.apache.org/java/docs/index.html)이 제공해야하는 것을 보면서 시작하겠다. 그 후에 기계 학습 방법을 사용하고 http://en.wikipedia.org/wiki/Information_retrieval을 봐야합니다.
0
쿨백 라이 블러 거리를 고려해보십시오. 참고로, 커버와 토마스의 18 페이지 참조 : 나는이 책을 통해 간단히 살펴 보았다
관련 문제
- 1. 코드 어휘 통계
- 2. sqlite에 비 영어 텍스트 저장
- 3. 러시아어 - 영어 병렬 텍스트 코퍼스?
- 4. 영어 동사 inflector
- 5. 배치 파일 비교 텍스트 파일로 레지스트리 비교
- 6. .NET Framework의 텍스트 비교
- 7. 텍스트 비교/차이 알고리즘
- 8. Eclipse 텍스트 비교 순서
- 9. PHP 텍스트 비교 스크립트
- 10. 텍스트 처리/비교 엔진
- 11. 어휘 분석
- 12. 이론 : "어휘 인코딩"
- 13. 영어
- 14. 영어 및/또는 핀란드어 텍스트 유효성 확인
- 15. 메시지 상자에 영어 이외의 텍스트 표시
- 16. 사용자 입력 테스트를위한 영어 텍스트 찾기
- 17. 힌디어 텍스트 C#에 대한 영어 음역
- 18. Android 용 "RAW 텍스트"영어 엔진인가요?
- 19. 어휘 분석에 관한 질문
- 20. ASCII 영어 텍스트/ASCII C 프로그램 텍스트 질문
- 21. innerHTML과 텍스트 비교 IE7 문제
- 22. 옵션 기본 ASP의 텍스트 비교
- 23. PHP에서 텍스트 파일의 문자를 비교
- 24. 텍스트 비교 {{if}} JQuery 템플릿
- 25. C에서 텍스트 파일의 어휘 및 라인을 찾아내는 데 오류가 발생했습니다.
- 26. SPDH 용 어휘 분석기
- 27. 어휘 분석 라이브러리
- 28. 정규식 어휘 분석
- 29. Java에서 어휘 분석기 만들기
- 30. 정규식과 하스켈의 어휘 분석기
을, 그러나 나는 어휘 알고리즘에 초점을 찾지 못했습니다. 내가 잘못? –