5
TV 쇼 및 기타 미디어 (게임, 영화 등) 용 스크레이퍼를 쓰고 있으며 모든 소스가 특정 프로그램에 대해 동일한 방식으로 포맷 된 것은 아닙니다. 예를 들어, 한 소스는 대시가있는 부제를, 다른 것은 세미콜론을 나타낼 수 있습니다. 나는 현재 Levenshtein 거리를 사용하여 긁어 낸 데이터를 TV 쇼 파일 이름에서 추출한 데이터와 비교하지만, 알고리즘이 문장 길이보다 짧은 짧은 문자열을 위해 설계되었는지 궁금합니다. 이 필요에 더 적합한 알고리즘이 있습니까?TV 쇼 제목 비교에 가장 적합한 문자열 거리 알고리즘은 무엇입니까?