0
관리되는 Elasticsearch 서비스를 사용하고 싶지만 특별히 필요한 플러그인이 없습니다. 플러그인은 맞춤형 토크 나이저를 제공하는 병음 플러그인입니다. 내 생각은 Elasticsearch에 삽입하기 전에 사전 처리 단계에서이 토큰 화를 복제하는 것입니다. I는 _analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer
를 호출하는 경우Elasticsearch에 사전 토큰 화 된 텍스트를 삽입하십시오.
는 예를 들어, I는 출력을 수신
{
"tokens": [
{
"token": "ldh",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 1
},
{
"token": "liu",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 2
},
{
"token": "hua",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 4
}
]
}
I은 전처리 공정이 같은 토큰을 생성하는 방법이 있지만 Elasticsearch로 - 분석 사전 다음 다시 삽입 할 수있다 색인?