유사 실제로 퍼지 조회 구성 요소가 무엇을 이해하기위한 좋은 시작이다 (사전에
감사합니다 (I는 실시간 시나리오를 의미) 함께 가야한다 퍼지 그룹으로) : SSIS fuzzy lookup
나는 실제로이 정보를 누군가가 뚱뚱한 클라이언트 데이터를 수신 한 클라이언트에서 사용했습니다. |
Lku 표
이름 (이 처음에 같은 얼마나주의) : 나는 회사의 이름을 기반으로 정적 조회 테이블을 생성 조회 출력 이름
Microsoft | Microsoft
JP Morgan Chase | JP 모건 체이스
맥도날드 | 맥도날드
나는이처럼 보였다 텍스트 파일에서 데이터를받을 것이다 :
형식화 된 이름을
Microsft
JP 모건
McDons
퍼지 조회를 사용하여, 나는 Name 열에 가입합니다 (대소 문자를 구별하지 마십시오 - 캐스팅 할 사용자의 위 또는 아래). 조회 출력 이름을 가져옵니다. 나는 대략 80 % (권장 퍼센트 이상)로 similiarity threshold를 설정했다.그러면 다음과 같이 보이는 데이터 뷰어를 통해 내 matchup을 볼 수 있습니다.
입력 한 이름 | 조회 이름 | 자신감 | 유사도
Microsoft | Microsoft | 100 % | 100 %
JP Morgan | JP 모건 체이스 | 88 % | 90 %
McDons | 맥도날드 | 60 % | 50 %
조건부 분할을 기반으로 신뢰도와 유사도가 80 %를 초과하고 조회 표에이 아닌 값을 100 %로드 한 다음 나머지를 오류 테이블에로드했습니다. 그런 다음 오류 테이블의 수가 1보다 큰 경우 전자 메일로 전자 메일을 보냈습니다. |
룩업 테이블
이름 : 그래서 결과 조회 테이블은 다음과 같이 될 것이다 조회 출력 이름
Microsoft | Microsoft
JP Morgan Chase | JP 모건 체이스
맥도날드 | 맥도날드
JP Morgan | JP 모건 체이스
오류 표
이름 | 제안 된 이름 | 오류 메시지
McDons | 맥도날드 | 신뢰도는 60 %이고 유사도는 50 %입니다.
희망이 있습니다.