예, 스템 머가 필요합니다. Lauri Karttunen은 훌륭했던 유한 상태 기계에 대한 작업을했지만 슬프게도 사용할 수있는 구현이 없다고 생각합니다. 언급했듯이, Lucene은 다양한 언어의 형태소 분석기를 가지고 있으며 OpenNLP 및 Gate 프로젝트가 도움이 될 수 있습니다. 또한, 어떻게 그들을 "자르려고"할 계획 이었습니까? 이것은 구두점, 소유물 등으로 인해 대부분의 사람들이 생각하는 것보다 조금 까다 롭습니다. 그리고 공백으로 나누는 것만으로는 여러 언어로 작동하지 않습니다. OpenNLP에 대해서도 살펴보십시오.
또 다른 고려해야 할 점은 두 문서의 논 스톱 단어를 비교하는 것이 지역 정보를 잃어 버리기 때문에 실제로하려는 것을 고려하면 좋은 유사성을위한 최선의 방법이 아닐 수도 있다는 것입니다. 예를 들어, 표절 탐지에 대한 일반적인 접근법은 문서를 n 개의 토큰으로 나누어 비교하는 것입니다. 이 방법으로 동시에 여러 문서를 비교할 수있는 알고리즘이 있으므로 각 문서를 한 쌍씩 비교하는 것보다 훨씬 효율적입니다.