트렌드 주제의 ~ 100 트윗을 보여주는 응용 프로그램이 있습니다. 문제는 그 중 많은 부분이 실제로 유사하다는 것입니다 (즉, 서로 다른 URL을 가진 동일한 트윗). 그 이유는 정말 비슷한 트윗을 무시하고 싶기 때문입니다.문자열 세트 (트윗)의 유사성 계산
나는 파이썬으로 이것을하는 효율적인 방법을 찾고있다. 나는이 문제를 해결하기 위해 http://code.google.com/p/pylevenshtein/을 사용하려고 생각하고있다. 그러나 나는 서로 많은 트윗을 비교해야 할 것이고 아마도 더 간단한 방법이있을 것이다.