데이터베이스에 문자열 집합이 있습니다. 각 세트에는 500 명 이하의 회원이 있고, 수만 세트가 있으며, 문자열은 자연 언어입니다. 각각의 세트 내에서 중복 문자열을 감지하고 싶습니다. 새 문자열은 기존 세트와 비교되고 고유 한 경우 데이터베이스에 추가됩니다.중복 텍스트 감지/해시
(매우) 유사한 문자열을 찾는 데 효과적인 해싱 알고리즘이 있습니까? 예를 들어, 문자열의 단어 수는 같지만 인코딩이 약간 다를 수 있습니다 (UTF-8과 Latin-1).
shingling이 접근 방법의 일부일 수 있습니다. http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html – wehriam
원하는 경우 메타 폰이나 soundex를 저장할 수 있습니다. 비슷한 물건 –
shingling. 시원하고 처음 들었습니다. – si28719e