문자열 인 경우 질풍의 (A 아포스트로피로 끝나는 는) 다음 내가 단말마의, 질풍로 토큰 화 할 것인지 등의 모든 단어를 토큰 화하고을 flurrys. 하지만 난 다음 내가elasticsearch에서 문자열을 토큰 화 하시겠습니까? Elasticsearch에서
S'sode = S, SODE, Ssode, S'sode 또는 S 아래 참조 예를 들어 구분 내 말을 사용하려는 아포스트로피 (위 같은의로 끝나는되지 않음)을 포함한 모든 특수 문자가있는 경우 -sode = S, 내 말의 구분은 단순히 잘 작동하지만 문자열 아포스트로피와의로 끝나는 경우에만 위의 경우 작동하지 않습니다 SODE, Ssode, Ssode
. 내 말 구분 기호는 이전 단어 구분 기호 필터를 사용했다
"my_word_delimiter" : {
"type" : "word_delimiter",
"preserve_original": true,
"catenate_all": true,
"split_on_case_change": true,
"stem_english_possessive": false
}
.I 아래와 같습니다, 그러나 또한 의을 고려하고 난 내 토큰 화 된 문자열도 내가 사용하고 쉼표 형태소 분석기에 하나의 의을하지 않으려하지만, 거기에서 나는 얻지 않았다 떠들썩하고 치다.
누구나 내가 어떻게 할 수 있는지 알려주시겠습니까? 나는 elasticsearch에 대해별로 생각하지 않습니다.
지금 케티의 대답의 도움과
아래에 주어진 내가 의 내 코드로 끝나는 문자열을 토큰 화하지 않는 단어 구분 기호를 구별하는 방법에에 붙어 하나의 포인트가 구분 기호 내 말과 혼합 틸"settings": {
"analysis": {
"char_filter": {
"test": {
"type": "pattern_replace",
"pattern": "\\b((\\w+)'s)\\b",
"replacement": "$1 $2 $2s"
}
},
"analyzer": {
"apostrophe_analyzer": {
"tokenizer": "whitespace",
"char_filter" : ["test"],
"filter" : [ "my_word_delimiter", "lowercase"]
}
},
"filter":{
"my_word_delimiter" : {
"type" : "word_delimiter",
"preserve_original": true,
"catenate_all": true,
"split_on_case_change": true,
"stem_english_possessive": false
}
}
}
}
를, 영어에 대한 소유욕 형태소 분석기를 필요로 아마 것 및 ''char ''을 제거하기 위해 [매핑 필터] (https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-mapping-charfilter.html) 배우. 그게 당신에게 필요한 행동인가요? –