2014-04-18 5 views
0

기본 키 ContamID를 사용하여 NY에 오염 된 사이트 목록이 있다고 가정합니다.이 목록의 레코드 범위는 1990에서 2004까지입니다.여러 데이터 소스를 하나의 소스에 넣기

표 1 :

  • ContamID
  • CauseOfContamination
  • 주소
  • 주 이제 몇 달 후 가정 할 수 있습니다

  • ZipeCode 우리 연도의 업데이트 된 목록을 가지고 1990 ~ 2011주어진 열는

    표 2 :

  • Cause_Contam
  • ADDRESS_1
  • Address_2
  • ZipeCode
  • (ContamID로 동일)

    • CID(210)
    • 위도 개월 이내

    우리가 가지고 주어진 열 2014 년 2011 년 또 다른 업데이트 된 목록 :

    표 3 : 표 1, 2에 비해

    • SiteID (완전히 다른 PK)
    • 사이트 주소
    • 사이트 카운티
    • 사이트 우편 번호
    • LevelOfRisk

    모든 세 표는 오염 된 사이트 목록을 나타냅니다. 그러나 이러한 테이블은 업데이트가있을 때마다 다른 구조로 나타납니다. 쉽게 유지 보수가 가능하고 일관성이 있으며 모든 업데이트에 대해 광범위한 데이터 분석을 요구하지 않는 좋은 솔루션을 어떻게 얻을 수 있습니까? 이것은 내가 최근에 직면하고 노력 해왔다 문제가

    • ContamID
    • CID

    을 SiteID :

    나는 세 개의 키를 보유 할 차원 테이블을 만들 생각 지속 가능한 일관된 솔루션을 찾으십시오.

    그러나 ContamID와 CID의 일부 레코드가 서로 겹치는 문제가 있습니다. 확실히 CID는 업데이트 된 레코드를 나타내므로 ContamID를 대체해야합니다. 또는 표 1과 표 2를 병합 할 수 있습니다.

    이러한 문제에 더 잘 접근 할 수 있습니다. 어떤 조언이 반드시 도움이 될 것입니다.

    감사합니다.

    답변

    0

    이것은 "마스터 데이터 관리"(MDM) 작업입니다. 거기에 도움이 많은 패키지가 있습니다. 기본적으로 ETL 시간에 적용되는 동의어 또는 추론을 정의하는 것으로 분류됩니다. "John Smith"= "Smith, John"= "J. Smith".

    디자인 당신의당신의 요구에 대한 데이터베이스와 소스 시스템에서 번역 MDM 및 ETL 거래를 할 수 있습니다.

    관련 문제