2012-11-22 3 views
3

색인이 생성되었으므로 문서가 400 개 있습니다. 그런 다음이 두 문서 간의 유사점을 표시하기 위해 두 개의 문서와 lucene을 제공하려고합니다. 그게 가능하니? 미리 감사드립니다.두 문서 사이의 유사점 찾기 Lucene

답변

0

요컨대. 두 개의 문서 벡터의 코사인을 계산합니다. 사람이 좋은 유사성 측정을 원하는 경우

example code

+0

예,하지만, 나는 그가 좋은 형태소 분석기를 필요로 너무 중지 단어 제거 할 수 있다고 생각합니다. 이 작업을 수행하는 쉬운 방법이 있습니까? 루씬 제외? –