다국어 색인을 작성해야하는 시나리오가 있습니다. 특히 두 개의 스크립트에 대해서는이 두 스크립트가 완전히 다릅니다 (힌디어 및 영어). 그래서 그들의 stemmers와 lemmatisers는 서로 영향을 미치지 않습니다. 색인 생성에 수백만 개의 문서가 포함될 것입니다. follwing 3 어느 색인을 사용합니까? :Solr 색인 생성 방법
두 언어에 대한 단일 필드. 이점 - a) 스크립트가 다르기 때문에 두 분석기를 모두 사용할 수 있습니다. b) 필드가 제한되어 있기 때문에 빠른 검색. c) 관련성 문제를 처리해야합니다.
언어 특정 필드 : a) 많은 필드로 인해 검색 속도가 느려질 수 있습니다.
멀티 코어 방식 : 다국어 문서 처리 문제. b) 투여가 어려울 것이다. c) 언어 별 검색은 쉬울 것입니다.
감사합니다 mbonaci, 나는 색인을 생성 할 데이터의 언어를 모른다. 동적으로 언어를 감지하고 올바른 핵심을 선택하는 방법이 있습니까? –
언어 감지 : http://wiki.apache.org/solr/LanguageDetection http://lucidworks.lucidimagination.com/display/solr/Detecting+Languages+During+Indexing –
감사합니다. mbonaci. 나는이 언어 탐지를 확인했다. 그러나 정확하게 언어를 감지하지 못합니다. 내 경우에는 정확도가 10 % 미만입니다. 심지어 그것은 대체 필드를 사용하지 않는 것 같습니다. 모든 영어 콘텐츠에 대해 흰색 목록에없는 언어를 감지합니다. 흰색으로 나열된 언어 만 탐지하고 흰색으로 나열된 언어가 일치하지 않으면 대체 언어로 대체해야합니다. wiki와 별개로 langdetect를 사용하기위한 다른 포인터. ????? –