문자열 형식으로 데이터 (지리적 이름)를 가져 오는 경우가 있습니다 (예 : 아시아, 오스트레일리아) 때때로 한 개 이상의 지역이있는 문자열도 가져옵니다 (예 : - 유럽 & 아프리카, 북미 및 독일 등). 또한이 영역의 구분자는 다르지만 영역은 동일하게 유지됩니다 (예 : - 아시아 & 아프리카, 아시아 - 아프리카, 아시아/아프리카 등). 주된 문제는이 데이터가 일치하지 않을 수 있다는 것입니다. 철자 오류도 있습니다. (예 : Pacific/Pasific 등)문자열에 맞춤법 오류가 있는지 확인하십시오.
이 모든 영역을 버킷 집합으로 매핑해야하지만 지금까지 수동으로 수행해야했습니다. 적어도 어느 정도 이러한 문자열의 매핑을 자동화 할 수있는 방법이 있습니까? 나는 soundex 기능을 사용하려했지만 미국이나 미국 또는 미국이 다르게 표시되고 오스트리아와 호주가 동일하게 표시 될 때 반대 의견을 제시했습니다.
도움을 주셔서 감사합니다.
이 이름들은 어떻게 구합니까? 이것은 사용자 입력의 문제입니까, 아니면 제어 할 수없는 소스에서 이러한 문자열을 받고 있습니까? – Steve
잘못 입력 된 데이터를 수정하는 것은 개발자의 책임이 아니지만 Stack Overflow에 관한 질문을하기 전에 * 자신의 요구 사항 *을 시도한 개발자의 책임입니다. 지금까지 시도한 것을 보여주십시오. – Sheridan
@ 스티브 블룸버그 데이터를 사용합니다. 그래서 우리는 그것을 통제 할 수 없습니다. 블룸버그에게 블룸버그에게 그들이 제공 한 방식대로 데이터를 제공 할 수있는 방법이 있는지 물어 봤다. –