두 개의 자막 파일이 있습니다. 나는 그들이텍스트 유사 알고리즘
는 때때로 하나 개의 파일에 "바람이 ... 음악이 재생되는 불고있다"등의 의견이있는 유사한 텍스트를 같은 텍스트를 나타내는, 또는 여부를 알려주는 기능이 필요합니다. 하지만 내용의 80 %가 동일합니다. 이 함수는 TRUE를 반환해야합니다 (파일은 동일한 텍스트를 나타냅니다). 때때로 l (1 - L) 대신에 1과 같은 맞춤법 오류가 있습니다. 수하물 1 개는입니다. 물론 함수는 TRUE를 반환해야 함을 의미합니다.
내 의견 :
텍스트의 유사성의 비율을 반환해야 기능 - 여기로 간주 될 거라고 -
"모든 사람들이 행복하지 않았다", "모든 사람들이 행복했다"및 동의 철자가 틀리면 같은 텍스트로 간주됩니다. 정확히 말하면, 함수가 반환하는 백분율은 낮지 만 문구가 비슷하다고 말할만큼 충분히 높습니다.
Levenshtein을 전체 파일에 적용 할 것인지 아니면 검색 문자열에만 적용 할 것인지 고려하십시오. 알고리즘은 파일 전체에 적용되어야합니다. 그래도 아주 긴 문자열이 될 것입니다.
텍스트의 유사성의 비율을 반환해야 기능 및 임계 값을 TRUE 또는 FALSE로 결정합니다. – YOU
당신은 당신의 유사성 기준에 대해 매우 신중해야 할 필요가 있습니다. 그리고 나는 이것이 당신이하려고하는 것 중 가장 힘든 부분 일 수 있다고 생각합니다.예를 들어 "모든 사람들은 행복했습니다."그리고 "모든 사람들은 행복하지 않았습니다"는 텍스트와 비슷하지만 완전히 반대입니다. 비슷하거나 다른 텍스트의 몇 가지 예가 도움이 될 수 있습니다. – glenatron
Soundex (http://en.wikipedia.org/wiki/Soundex)를 확인하고 원하는 내용인지 확인하십시오. –