2017-01-25 2 views
2

우리는 레코드 연결 프로젝트를 진행 중입니다. 우리는 문자열, JARO 윈 클러, Levenshtein, N-그램, Damerau - Levenshtein, 인 Jaccard 지수, 소렌슨 - 주사위문자열 유사성 기법을 사용한 레코드 연결

말 같은 표준 기술의 모두에서 이상한 행동을 관찰하는 1 = MINI 분쇄기 KIT
문자열 2 = Weiler 13001 미니 그라인더 액세서리 키트, 작은 직각 그라인더와 함께 사용
String 3 = 회전 검사 범위 : M-SPECTOR 360, 2.7 in 640 x 480 픽셀 고해상도 LCD, 플라스틱, 흑색/빨간색

위의 경우 문자열 1과 문자열 2는 아래 표시된 모든 방법의 점수와 관련이 있습니다.
JARO 윙클러 -> 0.391666651
Levenshtein -> 75
N 그램 -> 0.9375
Damerau -> 75
인 Jaccard 인덱스 -> 0
소렌슨 다이스 -> 0
코사인 -> 0

그러나 문자열 1과 문자열 3은 전혀 관련이 없지만 거리 방법은 매우 높은 점수를 제공합니다.
JARO 윙클러 -> 0.435714275
Levenshtein -> 133
N 그램 -> 0.953571439
Damerau -> 133
인 Jaccard 인덱스 -> 1
소렌슨 다이스 -> 0
코사인 -> 0

모든 의견.

답변

1

모든 거리 계산 점수는 대소 문자를 구별합니다. 그러므로 모두를 똑같은 사건으로 데려 오라. 그런 다음 점수 계산을 적절하게 볼 수 있습니다.

0

여기 두 가지 제품이 같은지 아닌지 확인하는 것이 목표입니다. 데이터는 다른 소스 형태입니다. 이와 같은 데이터의 경우 비교할만한 가장 중요한 언급이 무엇인지 알아야합니다. 브랜드 이름, 사양 등 ...

이러한 측정 항목은 유사성에 대한 매우 조잡한 개념을 따르며, 이와 같은 데이터를 제공하지 않습니다.

그래서 처음에는 깨끗하게하고 (구두점, 중요하지 않은 단어는 제외), 토큰 화 (한 마디로 나누십시오) 다음 더 나은 검색을 위해 fuzzywuzzy을 사용할 수 있습니다.

관련 문제