2012-02-08 2 views
1

Lucene의 C#에서 인덱스에 중복 파일이 있거나 거의 동일한 파일인지 확인하여 새로운 파일로 교체해야하는지 확인하려고합니다. 이렇게하려면 MoreLikeThis 클래스를 사용한 다음 관련 문서 목록을 얻는 방법을 생각했습니다. 그런 다음이 관련 문서를 비교하여 내가 추가하는 문서와 일치하는지 확인합니다 (예 : 90 % 일치). 이 프로그램은 두 사용자가 중복되는지, 어떤 사용자가 중복할지 묻습니다.Lucene의 두 파일 간의 차이점

  1. Lucene을 사용하여이 작업을 수행 할 수 있습니까? ... 그리고 이것을하는 것이 최선의 방법입니까?
  2. 이 작업을 수행 할 수없는 경우 Levenshtein Distance Algorithm 두 파일을 비교하는 가장 효율적인 방법을 사용하여 비슷한 일치 항목이 있는지 확인합니다.

고마워요!

답변

0

lucene과 비교하기 위해 TermFreqVector를 사용하고 TermVector를 색인에 저장할 수도 있습니다. 또한이 vecotr와 Dirichlet 유사성을 계산할 수 있습니다.

관련 문제