저는 Solr을 사용하는 것에 대해 아주 새로운 것이지만 도움을 요청하고 싶습니다. 쿼리 결과를 강조 표시 할 수있는 응용 프로그램을 개발 중입니다. 이를 위해 내가 정규식 fragmenter을 사용하고 있습니다 :형태소 분석으로 인해 Solr에서 느리게 강조 표시하지 마십시오.
<highlighting>
<fragmenter name="regex" class="org.apache.solr.highlight.RegexFragmenter">
<lst name="defaults">
<int name="hl.fragsize">500</int>
<float name="hl.regex.slop">0.5</float>
<str name="hl.pre"><![CDATA[<b>]]></str>
<str name="hl.post"><![CDATA[</b>]]></str>
<str name="hl.useFastVectorHighlighter">true</str>
<str name="hl.regex.pattern">[-\w ,/\n\"']{20,300}[.?!]</str>
<str name="hl.fl">dokumentum_syn_query</str>
</lst>
필드는 용어 벡터와 오프셋 (offset) 색인 : 강조 표시가 잘 작동
<field name="dokumentum_syn_query" type="huntext_syn" indexed="true" stored="true" multiValued="true" termVectors="on" termPositions="on" termOffsets="on"/>
<fieldType name="huntext_syn" class="solr.TextField" stored="true" indexed="true" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="com.morphologic.solr.huntoken.HunTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords_query.txt" enablePositionIncrements="true" />
<filter class="com.morphologic.solr.hunstem.HumorStemFilterFactory"
lex="/home/oroszgy/workspace/morpho/solrplugins/data/lex"
cache="alma"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords_query.txt" enablePositionIncrements="true" />
<filter class="com.morphologic.solr.hunstem.HumorStemFilterFactory"
lex="/home/oroszgy/workspace/morpho/solrplugins/data/lex"
cache="alma"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms_query.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
를, 그 정말 느린 것을 excepts. 형광펜/조각 모음이 모든 결과 문서의 형태소 분석을 다시하기 때문에 이것이 실현되었습니다.
왜 이런 일이 일어나지 않으면 어떻게 도와야합니까? (나는 fastvectorhighlighter를 사용하는 것이 내 문제를 해결할 것이라고 생각했지만 그렇지 않았다.)
답변 해 주셔서 감사합니다! 이전에 tervVector에 관한 내용을 읽었습니다. 위에서 볼 수 있듯이 이것을 사용하려고했습니다. Unfortunatelly 아마도 오래된 문서를 사용하고 사실 대신 값을 설정했습니다. 이 트릭을 무시하는 데 도움이되는 트릭이었습니다. – oroszgy