UAX29URLEmailTokenizerFactory 토크 나이저를 사용하여 SOLR의 일부 URI를 인덱싱하고 있습니다. 문제는 내 URI 중 일부가 공백으로 해석하고 URI를 분할하는 더하기 문자를 포함하고 있다는 것입니다. 이 문제는 영리한 '+'문자의 이스케이프 처리로 해결할 수 있습니까? 나는 분석기에서 '+'를 시도했지만 동일한 결과를 얻었다.인덱스와 SOLR의 문자
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
아이디어를 주셔서 감사합니다. '+'문자를 이스케이프 처리하는 '% 2B' – kpentchev