나는 함께 쓰고있는 테이블에서 경쟁 업체 이름을 나열하는 데 사용되는 열을 가지고 있습니다. 지금은 이러한 입력이 이루어지는 방식에 대해 많은 통제력을 갖지 못하고 심각한 두통을 유발합니다. Google 데이터 전체에 임의의 공백과 맞춤법 오류가 있지만 아직 경쟁 업체별로 데이터를 나열해야합니다. 예를 들어 (내가 사용하지 실제 SQL), 경쟁사의 목록으로하나의 열에 유사한 값 조합하기
:
SELECT Competitor_Name, SUM(Their_Sales),
FROM Cmdata.Competitors
Where Their_Sales
Between 10000 AND 100000000
Group by Competitor_Name
내가 각 버전에 대해 다른 항목을 얻을 것입니다 : 나는 쿼리를 실행 한 경우
Price Cutter
PriceCutter
PriceCuter
Price Cuter
프라이스 커터, 내가 분명히 피하고 싶은 것.
나는이 문제가 많이 올 것이라고 생각하지만, 나는 구글 검색을했고 건조했다. 나는 약간의 말로 분명히 말하기 힘들다는 것을 인정할 것이다. 어쩌면 그렇게해서 나는 아무 것도 가지 않았다. 어느 쪽이든 이미 이것에 대한 기본 지식이 있어야합니다 ...
(PS- 예, 우리는 드롭 다운 메뉴로 이동 중이지만 시간이 좀 걸릴 것입니다.)
입니다 cleanedName 대신 COMPETITOR_NAME에 의해 다음
그룹 . 어떻게하면 RBDMS를 사용 하느냐에 달려 있습니다. 대답과 마찬가지로 Sql을 사용하여 [levenshtein distance formula] (http://en.wikipedia.org/wiki/Levenshtein_distance)와 같은 것을 구현하는 것보다 데이터를 정리하는 것이 더 쉽습니다. –
죄송합니다, 내가 사용하고있는 것을 게시 했어야합니다. DB2 for i (IBM)입니다. SQL을 사용하여 데이터를 가져 오지만 읽기 액세스 권한 만 있습니다.데이터를 정리하기 위해 할 일은 데이터를 가져 와서 직접 수정하는 것입니다. 다른 수정 프로그램은 IS를 통과해야합니다 ... –