2012-06-28 2 views
3

트렌드 주제의 ~ 100 트윗을 보여주는 응용 프로그램이 있습니다. 문제는 그 중 많은 부분이 실제로 유사하다는 것입니다 (즉, 서로 다른 URL을 가진 동일한 트윗). 그 이유는 정말 비슷한 트윗을 무시하고 싶기 때문입니다.문자열 세트 (트윗)의 유사성 계산

나는 파이썬으로 이것을하는 효율적인 방법을 찾고있다. 나는이 문제를 해결하기 위해 http://code.google.com/p/pylevenshtein/을 사용하려고 생각하고있다. 그러나 나는 서로 많은 트윗을 비교해야 할 것이고 아마도 더 간단한 방법이있을 것이다.

답변

2

당신은 정말로 difflib을 시도해야하는데, 멋진 것들이 있습니다. 여기 내 즐겨 찾기 중 하나가 있습니다 :

>>>from difflib import SequenceMatcher as sm 
>>> dif = sm(a='hello', b='maybe hello') 
>>> dif.ratio() 
0.625 
>>> dif = sm(a='hello', b='Hello') 
>>> dif.ratio() 
0.8 
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6]) 
>>> dif.ratio() 
0.5