2012-10-23 3 views
0

Excel에서 2 개의 데이터베이스가 있습니다. 데이터베이스 A에는 여러 회사, 도시 및 자선 단체의 이름이 있습니다. 데이터베이스 B는 동일합니다. 그러나 데이터베이스 B는 고객이 작성합니다. 이와 같이 합법적 인 이름에 많은 실수와 변형이 생깁니다.비슷한 단어와 문구를 비교하십시오.

이름을 비교하는 가장 좋은 방법은 무엇입니까? 여기

는 일부 샘플의 차이점은 다음과 같습니다

  1. ABC의시는 ABC의 도시의 공사로 표시 할 수
  2. ABC Corporation의 수도 그냥 ABCcorporation은의
  3. 대학 (그들은 공간을 잊었)로 ABC는
  4. 캐나다 타이어 캐나다 타이어 상점 번호로 표시 할 수 ABC의 대학교로 축약 할 수있다 (503)
  5. 캐나다 타이어가 Canadia 타이어처럼 잘못된 철자 될 수
  6. ABC 사가 ABC Inc로 표시 될 수 있습니다.

거기에 좋은 해결책이 있습니까? 이 질문은 장거리 슛을 조금 알지만, 난 할 수 있을지

어떤 조언을 크게

+0

Excel의 데이터베이스는 무엇입니까? Access와 같은 * 실제 * 데이터베이스를 사용하지 않는 이유는 무엇입니까? 실제로 올바른 데이터를 입력하도록 강요하는 데이터 입력 양식을 설계 할 수 있습니다. 잘못된 데이터는 허용되지 않습니다. Excel에서는 아무 곳이나 아무 것도 입력 할 수 있습니다. – GolezTrol

+0

나는 그가 시트를 의미한다고 생각한다. – FUD

+0

@GolezTrol 그럴 수 없습니다. 나는 너무 낮은 수준의 직원입니다 ... 데이터는 우리에게 Excel 파일로 제공되며 회사와 일치해야합니다. 다른 프로그램에서 내보내고 작업 할 수 있지만 (스크립트를 작성할 수는 있지만) 그대로 데이터가 Excel 형식으로 나와 고객이 적절하게 채 웁니다. (불행히도) –

답변

2

이것은 매우 복잡한 문제입니다. "마스터 데이터 관리"및 "dedup"을 찾으십시오. This wikipedia article은 좋은 출발점입니다.

문제는 작은 덩어리로 해결하는 것이 가장 좋습니다. 내 추천 조금 조금 읽을 가능성이 중복 및 몇 가지 쉬운 방법을 병합 목록 도구를 구현하는 것입니다. 여기에있는 키워드는 잠재력입니다. 잘못된 병합을하고 싶지 않고 오탐 (false positive)이 매우 위험하고 매우 위험합니다.

0

당신을 이해할 수있을 것이다 ... 시간 매년 수천 같은 내 회사에서 사람을 저장합니다 정규식을 사용하여 이러한 데이터베이스를 필터링 할 수 있습니다.

http://en.wikipedia.org/wiki/Regular_expression

http://www.zytrax.com/tech/web/regex.htm

당신은 회사 이름의 관련 부분을 기반으로 프로그램 패턴 일치를 가질 수 있습니다. 예를 들어, 누군가 Microsoft Corporation의 Redmond에 넣고 프로그램 의 패턴이 'Microsoft'와 일치하면 적중률이 높아집니다.

관련 문제