내 프로젝트는 사람들 팀에 의해 수동으로 작성된 평면 Excel 파일에서 상당한 크기의 콜렉션 + 500K 행의 데이터를 가져옵니다. 이제 문제는 클라이언트 검색을 위해 모두 정규화해야한다는 것입니다. 예를 들어, 회사 필드에는 여러 회사 철자가 있으며 "IBM", "IBM"과 같은 지점이 포함됩니다. 또한 "A46-Rhizonme Pentahol"과 같이 영숫자로 된 제품 이름이 있습니다. SOUNDEX만으로는을 처리 할 수 없습니다.MySQL에서 문자열을 어떻게 토큰화할 수 있습니까?
모든 데이터 입력이 웹 양식을 통해 이루어 지므로 AJAX가 자동으로으로 제안되어이 문제를 장기간에 걸쳐 해결할 수 있습니다. 그러나 그때까지는 기존 데이터를 엄청나게 수집해야합니다. 이것은 내가 여기 읽은 내용에 따라, 좋은 과정이다 내가 믿는 날을 제공합니다 :
이http://msdn.microsoft.com/en-us/magazine/cc163731.aspx
단계 사용자 정의 퍼지 조회를 작성하고, 퍼지 로직은
- 목록을 그룹화 항목 키워드로
- 토큰 화 문자열
- 계산 키워드 TF-IDF (전체 주파수 - 역 문서 동시에 빈번한)
- 계산 levenshtein dista 가능한 알파 문자열에 대한 키워드 사이의 후부
- 계산 Soundex와는
- 키워드의 컨텍스트를 결정하는 등 "회사", "제품", "성분"
나는이 문제에 대해 인터넷 검색, StackOverflow 검색, MySQL.com 토론 읽기, 미리 작성된 솔루션 찾기를 시도 해왔다. 어떤 아이디어?
훌륭한 자료, 감사합니다! 매우 수동적 인 솔루션이기 때문에 얼마나 잘 통합되는지 확인해야합니다. 프로세스가 자동화 될 수 있는지 궁금합니다. –