2012-01-19 2 views
0

여러 뉴스 소스 (회사에서 지불하는 것)에서 검색 한 여러 뉴스 헤드 라인 (그냥 문자열)이 있습니다. 종종 헤드 라인은 비슷하지만 단어를 매치하지 않습니다. 나는 구글 뉴스가하는 것과 비슷하게 그것들을 버킷에 넣으려고한다.그룹 공통 검색 결과 헤드 라인

알고리즘이 있습니까? 이 스크립트에는 루비 나 파이썬을 사용할 수 있습니다.

감사합니다.

답변

1

루비의 경우 text 보석, 특히 두 문자열 사이의 Levenshtein distance을 확인하십시오.

+0

감사 Phrogz. 이것은 트릭을했다. 또한이 링크를 다른 언어로 구현 된 wiki 책 페이지에 추가합니다. http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance – Poul