2014-07-13 5 views
2

ElasticSearch에서 게시물의 색인을 생성합니다. 현재 영어와 중국어의 두 가지 언어가 있습니다. 따라서 각 게시물에는 하나의 (영어) 또는 두 개의 번역과 두 언어에 공통적 인 일부 데이터가 있습니다. 제 질문은 어떻게 게시물을 색인해야합니까?다국어 탄성 검색

  1. 두 개의 색인 : posts-enposts-cn을 만들고 게시물을 따로 저장 하시겠습니까?
  2. 단일 인덱스 posts를 작성하고 다음과 같은 형식으로 데이터를 보관 : 두 개의 인덱스를 통해 하나의 문서를 분할 할 수있는 충분한 이유가 있지 않는 난 강력하게 하나에 모든 것을 유지 좋을 걸

    { 
        commonParam1: 1, 
        commonParam2: "somevalue", 
        ... 
        titleEn: "English title", 
        titleCn: "Chinese title", 
        contentEn: "Content EN", 
        contentCn: "Content CN", 
        ... 
    } 
    

답변

1

색인.

하나의 색인으로 각 언어 별 필드마다 다른 분석기를 쉽게 사용할 수 있습니다. 앞으로 새로운 언어에 대한 매핑을 추가하는 것은 매우 간단합니다. 별도로 색인을 작성하는 경우 한 번에 한 통화로 각 문서를 색인 할 수 있습니다. 중복 된 데이터 (예 : 공통 데이터)를 줄입니다.

은 또한이 게시물에서 좋은 모습을 것 : http://gibrown.wordpress.com/2013/05/01/three-principles-for-multilingal-indexing-in-elasticsearch/

그것은 Elasticsearch에 여러 언어에 대한 분석 및 인덱싱에 좋은 토론입니다.