2009-10-08 4 views
1

저는 FAST ESP 서버에서 검색 응용 프로그램을 실행하고 있습니다. 이제 문자 정규화에이 문제가 있습니다.빠른 ESP 문자 정규화

내가 원하는 것은 'wurth'를 검색하고 'würth'에서 히트 곡을 얻는 것입니다.

것은 내가 ESP에 다음과 같은 구성 해봤은/etc/토크 나이/tokenization.xml

<normalizationlist name="German to Norwegian"> 
    <normalization description="German u with diaeresis, to Norwegian u"> 
     <input>x75</input> 
     <output>xFC</output> 
     <output>x75</output> 
    </normalization> 
    </normalizationlist> 

하지만 꾸르의이 쓸모있는 유 폴리스 모두를 번역합니다.

이 방법을 올바르게 구성하려면 어떻게해야합니까?

답변

1

해결 방법은 모든 "특수 문자"를 동일한 "일반 문자"로 표준화하는 것입니다.

ö -> 오 ø -> 오 A ->를 A ->를 æ ->를

이 소모 비트 시간이지만, 작동!

0

Avanced Logistics Guide를 읽으십시오. 여기에는 문자 표준화에 대한 장이 포함되어 있습니다. 가이드의 단계를 수행하면 모든 특수 문자가 일반 문자로 처리됩니다. 따라서 über를 검색하면 uber를 검색 할 때와 동일한 결과를 얻을 수 있습니다.

+2

고급 언어 가이드가 아닙니까? – darasd

0

또한 MS 지원에서 제공하는 사용자 정의 사전을 설치 한 다음 각 언어로 사전을 제공 할 수 있습니다. 따라서 독일어를 설치하면 검색 엔진에서 검색하려고하는 내용을 이해할 수 있습니다. 사전이 설치되면 검색 쿼리를 활성화 할 수 있습니다. 또한 다국어 지원을 위해 적절한 문자 인코딩을 사용하여 검색 스키마를 올바르게 설정하는 것을 잊지 마십시오. 컬렉션의 문서에 적절한 문자 인코딩을 사용하여 색인이 생성되지 않은 경우 토큰 화 및 쿼리를 끝내면 아무런 노력을 기울이지 않아도됩니다.