수천 개의 오래된 문서를 스캔하여 데이터베이스에 중요한 데이터를 입력했습니다. 필드 중 하나는 작성자 이름입니다.신뢰할 수없는 저자 이름 검색
주어진 작성자가 문서를 검색해야하지만 데이터가 손으로 쓴 많은 문서에서 정확한 이름이 잘못 입력되었을 수 있습니다.
성의 처음 몇 글자 만 검색 한 다음 사용자가 선택할 수있는 목록을 표시 할 것을 생각했습니다. 이 단계에서 얼마나 많은 저자가 있는지 모르겠다. 수십만 명이 아니라 수백 명에 달할 것으로 생각된다. 수십만 개의 문서가있을 것입니다. 더 좋은 방법이 있습니까? SQL 데이터베이스에서 더 잘 처리 할 수 있습니까?
소프트웨어는 파이썬이며 작성자가있는 문서 목록이 있습니다.
이 링크를 살펴보십시오. http://en.wikipedia.org/wiki/Fuzzy_string_searching – dnagirl
정규식 모듈은 퍼지 검색을 지원합니다. http : // pypi.python.org/pypi/regex' – MRAB
다음 링크를 클릭하십시오. , difflib가 트릭을 할 수 있다고 생각합니다. 내 응용 프로그램에 대해 멋지고 쉽고 만족 스럽습니다. 감사합니다. – jimscafe