2009-12-30 6 views
4

나는 스웨덴어 텍스트 색인에 Zend Lucene을 사용합니다. 문제는 lucene이 스웨덴 문자 åäö에서 단어를 토큰 화합니다. 예를 들어 단어 "världens"는 색인에서 두 단어 "v"와 "ldens"가됩니다.Zend Lucene - 토큰 화 스웨덴어

lucene이 허용해야하는 문자를 추가하고 토큰 화하지 않는 방법이 있습니까?

답변

5

토큰 화에 default text analyzer 대신 UTF-8 compatible text analyzer을 사용하십시오. PHP의 PCRE (Perl 호환 정규 표현식) 라이브러리는 UTF-8을 지원하도록 컴파일해야합니다 (PHP에 번들 된 PCRE 라이브러리를 사용하는 경우 기본값이지만 공유 라이브러리를 사용하는 경우 활성화되지 않을 수도 있음). UTF-8 호환 분석기의 대소 문자를 구분하지 않는 버전의 경우 mbstring 확장을 활성화해야합니다.