MD5 알고리즘을 사용하여 두 문자열 간의 작은 차이를 어떻게 감지합니까? 몇 가지 큰 문자열 사이의 유사성 백분율을 찾고 싶습니다.MD5 해시 함수
MD5("The quick brown fox jumps over the lazy dog.")
= e4d909c290d0fb1ca068ffaddf22cbd0
MD5("The quick brown fox jumps over the lazy dog")
= 9e107d9d372bb6826bd81d3542a419d6
당신이 날이 하나 나에게 효율적으로 큰 문자열이나 큰 문서에서 사용할 수있는 또 다른 해시 알고리즘을 제공에 대한 해결책을 줄 수 : 이후 어떻게 나는 그 차이를 확인할 수 있습니까?
* 비슷한 * 항목을 찾는 것은 MD5 또는 해시 기능이 아닙니다. 모든 좋은 해시 함수는 충돌을 줄이는 것이 목표이기 때문에 의도적으로 작은 차이를 확대합니다. 원하는 것은 "편집 거리"라고하는 메트릭으로, 한 문자열을 다른 문자열로 바꾸는 데 필요한 개별 편집의 수를 의미합니다. –