solr v6.5 : - solr 코어에 색인 된 2 개의 pdf 파일이 있습니다. 그러나 문서에서 키워드를 검색 할 때 강조 표시가 한 문서에서만 작동하고 다른 문서에서는 작동하지 않습니다. 예를 들면 : 문서 중 하나에있는 "공황"을 검색 할 때. 강조 표시된 검색 결과를 얻습니다. 그러나 "엡실론"을 검색 할 때 문서 정보 등으로 발견되었다는 결과가 나오지만이 문서의 강조 표시는 작동하지 않습니다. 다음과 같이solr pdf 검색 강조 표시
.
.
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
-->
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
.
.
<field name="_text_" type="text_general" multiValued="true" indexed="true" stored="true"/>
<field name="content" type="text_general" multiValued="true" indexed="true" stored="true"/>
.
.
<copyField source="content" dest="_text_"/>
을 그리고, solrconfig.xml 조각은 다음과 같습니다 : 추가 된 뭐죠 가 Heres는/managed_schema.xml 변경
.
.
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="fmap.meta">ignored_</str>
<str name="fmap.content">_text_</str>
</lst>
</requestHandler>
.
.
검색 쿼리를 사용하여 "엡실론"이라는 단어가 Solr에서 색인 된 방법을 확인하고 여기에 공백이나 대문자가 들어 있는지 확인하십시오. 또한 "_ \ _ text \ __"필드 ("색인"과 "쿼리")에 대해 어떤 종류의 분석기를 사용하고 있는지 확인하십시오. 이 문제를 추가하여 문제를 찾을 수 있도록하십시오. – Riya
@Riya 나는 내가 찾고있는 단어가 문서에서 "있는 그대로"있다고 확신한다. 또한 필드 유형 세부 정보를 포함하는 편집을 수행했습니다 – user7913157
다시 한번 검색 및 강조 표시는 하나의 pdf doc (작은 크기의 pdf 파일)에서 작동합니다. 그러나 검색은 작동하지만 다른 pdf (상대적으로 더 큰 크기)에 대해서는 강조 표시하지 않습니다. 그게 도움이된다면. – user7913157