2012-01-13 3 views
1

다국어 색인을 작성해야하는 시나리오가 있습니다. 특히 두 개의 스크립트에 대해서는이 두 스크립트가 완전히 다릅니다 (힌디어 및 영어). 그래서 그들의 stemmers와 lemmatisers는 서로 영향을 미치지 않습니다. 색인 생성에 수백만 개의 문서가 포함될 것입니다. follwing 3 어느 색인을 사용합니까? :Solr 색인 생성 방법

  1. 두 언어에 대한 단일 필드. 이점 - a) 스크립트가 다르기 때문에 두 분석기를 모두 사용할 수 있습니다. b) 필드가 제한되어 있기 때문에 빠른 검색. c) 관련성 문제를 처리해야합니다.

  2. 언어 특정 필드 : a) 많은 필드로 인해 검색 속도가 느려질 수 있습니다.

  3. 멀티 코어 방식 : 다국어 문서 처리 문제. b) 투여가 어려울 것이다. c) 언어 별 검색은 쉬울 것입니다.

답변

1

별도의 코어가 좋습니다. IMHO, 간단히 말해서 올바른 길입니다.

각 코어/언어에 대한 분석기 (lemmatizers/형태소 분석기)를 별도로 정의하므로 Solr의 자동 언어 인식을 사용할 필요가 없습니다. 단점은 상용구 구성 요소입니다 (대부분의 설정은 두 코어 모두 동일 함).

Applying Language Specific Analyzer Dynamically before Solr Indexing

+0

감사합니다 mbonaci, 나는 색인을 생성 할 데이터의 언어를 모른다. 동적으로 언어를 감지하고 올바른 핵심을 선택하는 방법이 있습니까? –

+0

언어 감지 : http://wiki.apache.org/solr/LanguageDetection http://lucidworks.lucidimagination.com/display/solr/Detecting+Languages+During+Indexing –

+0

감사합니다. mbonaci. 나는이 언어 탐지를 확인했다. 그러나 정확하게 언어를 감지하지 못합니다. 내 경우에는 정확도가 10 % 미만입니다. 심지어 그것은 대체 필드를 사용하지 않는 것 같습니다. 모든 영어 콘텐츠에 대해 흰색 목록에없는 언어를 감지합니다. 흰색으로 나열된 언어 만 탐지하고 흰색으로 나열된 언어가 일치하지 않으면 대체 언어로 대체해야합니다. wiki와 별개로 langdetect를 사용하기위한 다른 포인터. ????? –

1

해당 내용을 참조하십시오 : Apache Solr multilanguage search, 도움이됩니다. 도자기라면 옵션 2 (그 옵션을 사용하고 있습니다)로 갈 것입니다.

+0

감사 복희 :

이 최근 유사한 게시물을 참조하십시오. 내가 제안한 접근법을 사용하는 것이 더 느린 검색은 모든 쿼리에 대한 여러 필드를 검색하기 때문에 하나의 쿼리가 language1 또는 language2에 속할 것이라고 생각합니다 ???? –

+0

그건 가능하지만, 나는 그것을 느끼지 못했다. 솔라가 파싱하여 결과를 생성하는 데 소비하는 시간을 비교하고 페이지에 표시합니다. 당신은 항상 기본 언어를 먼저 질의 할 수 있으며 어떤 히트를 얻지 못한다면 다른 언어를 사용해도되지만 합계가 더 오래 걸릴 것입니다 :) – Fuxi

관련 문제