2011-05-06 3 views
2

나는 방문자를 저장하고 추적 할 응용 프로그램을 가지고 있습니다. 이러한 방문객은 방문을 설정할 때 필요에 따라 스케줄러 (사용자)가 시스템에서 생성합니다.성과 이름 변형 검색을위한 이름 일치 사전

  • 이름
  • 회사 명

기존의 중복 레코드의 위험 :이 문제는 다음과 같이 대부분의 시간은 방문자의 유일한 중요한 고유 식별자 있다는 것입니다 동일한 사람은 본질적으로, 스케줄러는 그 이름으로 존재하는 누군가를 위해 시스템을 검색하는 대신에 새로운 방문자 레코드를 입력 할 수있다.

누군가가 같은 이름으로 방문자를 만났을 때 나는이 사람이 누구인지에 대한 여러 가지 제안과 함께 경고 대화 상자를 표시하지만 그 정도면 충분하지 않습니다.

'Jim Jones'라고 입력하면이 사람이 시스템에 'James Jones'또는 'Jimmy Jones'로 존재할 수 있습니다. 사용할 수있는 이름 인식 소프트웨어 패키지가 있지만 값이 비싸고 내가 찾고있는 것보다 확실히 무겁습니다.

잠재적으로 이름 변형을 찾기 위해 프로그래밍 방식으로 액세스 할 수있는 무료 또는 오픈 소스 사전 파일을 어디에서 찾을 수 있는지 알고 있습니까? 소프트웨어 나 온라인 서비스가 좋지만 데이터 덤프 나 간단한 텍스트 파일로도 가능합니다.

나는 중복 된 방문자 기록을 방지하지 못한다는 것을 알고 있으며, 최소한 중요한 것을 지키려고 노력하고 있습니다. 중요한 기능이 아닙니다.

+0

위의 디자인 설명에서 명확히하고 싶습니다. 스케줄러가 시스템을 검색하는 대신 새로운 방문자 레코드를 입력 할 수 있다고 말하면, 의도적으로 설계된 동작입니다. 사용자 기반은 최소한의 컴퓨터 기술을 가진 것으로 가정되므로 깨끗하고 간단한 손으로 잡고 다니는 흐름이 필요합니다. –

답변

2

일반적인 성과 이름은 Moby 프로젝트 (http://icon.shef.ac.uk/Moby/mwords.html)에서 확인하십시오. metaphone 및 soundex와 같은 도구를 사용하여 유사한 이름에 대한 사전 계산을 수행하고이를 사용하여 잠재적 인 일치 항목을 식별 할 수 있습니다. 또한 많은 것들로 구성 될 수 있기 때문에 관리하기가 조금 더 어려운 회사 ​​이름을 언급합니다. 아마도 12-dicts 단어 목록 (http://wordlist.sourceforge.net/) 2 + 2 영역 해당 패키지에 제공된 목록은 유사한 결과를 제공하는 유사한 맞춤법 솔루션과 함께 사용할 수있는 공통 뿌리를 공유하는 여러 양식을 제공합니다.

+0

게시 해 주셔서 감사합니다. 해당 링크를 확인하고 어떻게 작동하는지 알려 드리겠습니다. 명확히하기 위해 나는 회사를 찾는 것에 대해 걱정하지 않는다. 회사 필드는 검색 필드가 아니지만 정확히 동일한 이름을 가진 두 방문자를 고유하게 구별하기 위해 표시됩니다. –

+0

음 ... Moby 사전을 다운로드 할 때 압축을 푼 파일을 어떻게 처리해야하는지 파악하는 데 문제가 있습니다. readme는 전혀 도움이되지 않습니다. –

+0

음, Moby 사전은 시작이지만 내가 찾고있는 것은 아닙니다. 그것은 인상적인 이름 집합을 가지고 있지만 비교 목록 없이는 많은 것을 할 수 없습니다. 내가 테스트 한 Metaphone과 Soundex 알고리즘은 내가 찾던 것과 다른 유사한 사운드만을 발견 할 것이기 때문에 작동하지 않을 것이다. 내 검색어가 'William'인 경우 'Bill', 'Billy', 'Will', 'Willy', 'Willie'등의 변형을 검색 할 수 있어야합니다. 이름 변형 목록에있는 모든 방문자를 찾으려면 쿼리를 작성하십시오. –

관련 문제