0
저는 tfidf와 같은 다양한 메트릭에서 interdocument 유사성 테스트를 수행하기 위해 50 개 문서의 코퍼스에 사용할 수있는 패키지 (실제로는 모든 언어)를 찾고 있습니다. okapi, 언어 모델, lsa 등LSA, TFIDF, 코사인 메트릭 및 언어 모델을 비교하는 패키지
결과적으로 문서 유사성 행렬을 원합니다. 즉, doc1은 doc2와 비슷합니다. 이것은 연구 목적을위한 것이며 생산을위한 것이 아닙니다. 나는 이것을 인간의 평점과 관련 지을 수 있기 때문에 의사 유사성 행렬을 특별히 원합니다.
미리 감사드립니다.