2017-05-08 1 views
0

관리되는 Elasticsearch 서비스를 사용하고 싶지만 특별히 필요한 플러그인이 없습니다. 플러그인은 맞춤형 토크 나이저를 제공하는 병음 플러그인입니다. 내 생각은 Elasticsearch에 삽입하기 전에 사전 처리 단계에서이 토큰 화를 복제하는 것입니다. I는 _analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer를 호출하는 경우Elasticsearch에 사전 토큰 화 된 텍스트를 삽입하십시오.

는 예를 들어, I는 출력을 수신

{ 
    "tokens": [ 
    { 
     "token": "ldh", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 1 
    }, 
    { 
     "token": "liu", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 2 
    }, 
    { 
     "token": "hua", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 4 
    } 
    ] 
} 

I은 ​​전처리 공정이 같은 토큰을 생성하는 방법이 있지만 Elasticsearch로 - 분석 사전 다음 다시 삽입 할 수있다 색인?

답변

2

토큰 화 된 값의 배열을 만들 수 있습니다. 효과는 동일합니다. 또한 토큰 화뿐만 아니라 모든 전처리 작업을 수행하는 경우 키워드 필드를 사용하십시오. 그렇지 않으면 토큰이 개별적으로 다시 분석됩니다.