2009-10-12 6 views
0

저는 tfidf와 같은 다양한 메트릭에서 interdocument 유사성 테스트를 수행하기 위해 50 개 문서의 코퍼스에 사용할 수있는 패키지 (실제로는 모든 언어)를 찾고 있습니다. okapi, 언어 모델, lsa 등LSA, TFIDF, 코사인 메트릭 및 언어 모델을 비교하는 패키지

결과적으로 문서 유사성 행렬을 원합니다. 즉, doc1은 doc2와 비슷합니다. 이것은 연구 목적을위한 것이며 생산을위한 것이 아닙니다. 나는 이것을 인간의 평점과 관련 지을 수 있기 때문에 의사 유사성 행렬을 특별히 원합니다.

미리 감사드립니다.

답변

0

파이썬을 아는 경우 http://www.nltk.org을 사용할 수 있습니다. 필요한 모든 것이 있으며 플러스 문서 및 파이썬 언어입니다