위키 피 디아 문서는 전문 용어로 다소 느슨합니다. "자연어"에는 "문자열"같은 것이 없습니다. 글자와 문자 조합으로 표현할 수있는 자연어의 음소가 있습니다.
일부 문자 조합은 "gh"가 -f-와 같이 들리거나 전혀 소리가 나지 않는 현대 영어 "거친"에서와 같이 현대 시대까지 살아남은 역사적 관례의 흔적입니다. 원시 "문자열"에 초점을 맞추면 알고리즘은 언어와 정사각형 규칙의 역사적 관계에 대해 불가지론해야하며, 이는 문자 조합이 단일 음소와 관련이있을 때마다 임의의 메트릭을 유도합니다. "러프"에서 "루프"까지 어떻게 측정할까요? 또는 "through"에서 "thru"로? 또는 독일어 o- 움라우트가 "oe"입니까?
귀하의 경우, -y-는 음성 학적으로 그리고 정교하게 -ij-와 교환 할 수 있습니다. 그래서 알고리즘에 따라, 두 개의 삭제가 삽입에 이어 지거나, -j- 또는 -i-의 단일 삭제 다음에 -y-로 남은 문자의 전치가 뒤 따릅니다. 아니면 합쳐져서 합병이 뒤따른 것입니까?
알고리즘을 적용하기 전에 다른 사용되지 않은 다른 문자 (예 : U00EC, 라틴 소문자 i 및 악센트 부호 사용)를 사용하는 것이 좋습니다.
알고리즘이 멀티 코드 포인트 문자를 어떻게 처리합니까?
출처
2011-01-04 13:38:56
Tim
네가 네덜란드어를 음소로 변환 한 다음 거리를 쓴다면 어떻게 될까? – dnagirl
AFAIK 그러면 "원래"두 텍스트에 비해 거리가 변경 될 수 있습니다. –