2013-05-09 7 views
1

나는 FuzzyWuzzy String Matching module from SeatGeek을 사용하고 있습니다.FuzzyWuzzy 문자열 일치 - 대소 문자 구분

token_set_ratio 검색 알고리즘을 사용할 때 대소 문자 차이가 크게 달라집니다.

예를 들어, 파일에서 "나는 먹고있다"라는 문구를 찾고 있다면 100 % 일치합니다. 그러나 "나는 먹고 있습니다"라는 문구가 있다면, 한 글자의 경우 변경만으로도 65 %의 일치감을 얻을 수 있습니다.

알고리즘 대소 문자를 구분하지 못하게 할 방법이 있습니까?

+0

모든 항목에'.upper'를 사용할 수 있습니까? –

답변

-1

token_set_ratio()는 기본적으로 대소 문자를 구분합니다.

from fuzzywuzzy import fuzz 
fuzz.token_set_ratio("I am eating", "i am eating") 
=> 100 
0

당신이 fuzzhere의 원시 코드를 통해 갈 경우 fuzz.token_set_ratio 시퀀스 매칭을 수행하기 전에 소문자로 문자열을 변환 찾을 것입니다.

또한 비율 사용에 대한 명확성을 높이기 위해 SeatGeek 엔지니어가 here 게시자에게이 stackoverflow 게시물을 확인할 수 있습니다.

희망 하시겠습니까?