MS SQL Server와 호환되는 일부 중복 제거 소프트웨어를 찾고 있습니다. 나는 모든 다른 언어로 전세계 주소를 포함하는 상당히 광범위하고 지저분한 테이블을 가지고있다. 부모/자식 레코드로 중복을 처리하도록 테이블이 설정되므로 일치를 처리하는 일부 기능 (즉, 중복 제거뿐 아니라)이 필요합니다.데이터 중복 제거 소프트웨어에 대한 제안 사항?
편집 : 여기에 구조를
ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber
MasterID
각 레코드에 대해 고유을합니다.
ParentID
은 각 항목의 부모 레코드에 대해 MasterID
을 포함하고 상위 레코드는 MasterID = ParentID
입니다.
CountryCode
은 두 자의 ISO 국가 코드 (전화 코드 아님)입니다.
나는 이것을 위해 SQL을 사용하겠다. 이것은 중복 제거 (de-duping)에서 훌륭하다. 테이블 구조와 기준을 게시하면 쿼리에 도움이 될 수 있습니다. – JNK
동일한 주소를 검색하는 것 이상을 찾고 있습니까? 예 : 123 N. Main Street를 123 North Main St.의 중복으로 간주 하시겠습니까? – hatchet
참조 http://stackoverflow.com/questions/291728/open-source-address-scrubber – hatchet