맞춤 검색 엔진을 개발 중이며 각 단어를 적절한 언어 관련 형태소 분석기에 전달해야합니다.UTF8 버퍼에서 각 단어의 단어 경계와 언어를 감지합니다.
저는 최근에 UTF8 버퍼에 대해 인상적인 언어 감지 기능을 제공하는 CLD (Compact Language Detector) http://blog.mikemccandless.com/2011/10/language-detection-with-googles-compact.html을 발견했습니다.
CLD는 주어진 버퍼의 언어를 탐지하는 데 매우 유용하지만, 버퍼에서 단어 경계를 추출하고 각 단어에 대한 언어를 감지해야합니다.
아이디어가 있으십니까?
나는 기본적으로 다음을 수행 ICU 사용하여 언어 감지 엔진 개발 한
정규식'\ b' 특수 문자. – kirilloid