2013-07-21 2 views
1

나는 lucene을 사용하여 색인을 생성 할 다중 언어 문서 레코드가 있습니다. 즉, 각 문서 레코드는 하나의 언어로되어 있지만 다른 언어 레코드가 있습니다. 다중 언어 쿼리로 검색 할 수 있도록이 인덱스를 하나의 인덱스로 유지하려고합니다. 현재 문서 기록은 다음과 같이 하나 개의 데이터 입력 파일에 있습니다색인 luncene이있는 다중 언어 필드

<DOCID>1<\DOCID> 
<LANGUAGE>CHINESE<\LANGUAGE> 
<TEXT>中文内容<\TEXT> 

<DOCID>2<\DOCID> 
<LANGUAGE>ENGLISH<\LANGUAGE> 
<TEXT>Some English text<\TEXT> 

내 질문은 : 하나 명의 인덱스 작가와 같은 분야에 대해 서로 다른 분석기를 사용하는 방법이 있나요? 또는 다른 색인 작성기를 적용하지만 동일한 색인에 추가하기 위해 문서 레코드를 다른 언어로 된 두 개의 입력 문서로 분할해야합니까?

미리 조언 해 주셔서 감사합니다.

답변

1

IndexWriter.addDocument에 전화 할 때 문서에 사용할 분석기를 제공 할 수 있습니다.

그러나 다른 언어 텍스트를 다른 필드로 나누면 더 많은 이익을 얻을 수 있습니다. 잘못된 언어에 히트하는 것을 방지하고 올바른 언어를 찾은 후 적절한 분석기를 지정하기 위해 AnalyzerWrapper을 만들 수 있습니다.

+0

의견을 보내 드리겠습니다. 고맙습니다! – querystack