2011-03-04 5 views
3

내 데이터 저장소의 항목이 근사 문자열 일치를 사용하여 거의 중복되도록 노력하고 있습니다.파이썬에서이 문자열 매칭 메소드의 구현이 있습니까?

파이썬에서 다음 접근법의 구현이 있습니까? 아니면 내 자신을 시도하고 롤업해야합니까?

감사합니다 :)

from wikipedia :

...

무차별 접근 방식은 하는 것은 T의 모든 문자열에 대한 P의 편집 거리를 계산하고, 최소 거리의 부분 문자열 을 선택하십시오. 각 위치 j에있는 경우 : 그러나,이 알고리즘은 실행 시간 O (N3 m) [3] [4] 동적 프로그래밍을 이용하여 더 나은 솔루션은 문제의 다른 제제를 사용

있을 것 텍스트 T 및 패턴 P의 각 위치 제가 j 위치에서 종료 패턴, 파이, 임의 문자열 TJ 'T의 J의 I 제 문자 간의 최소 편집 거리를 계산한다.

많은 문자열에이 방법을 적용하는 가장 효율적인 방법은 무엇입니까?

답변

0

difflib는, 예를 들어, 해답이 될 수

from difflib import context_diff 

a = 'acaacbaaca' 
b = 'accabcaacc' 

print ''.join(context_diff(a,b)) 
1

예.

google("python levenshtein") 
관련 문제