solr pdf 검색 강조 표시

solr v6.5 : - solr 코어에 색인 된 2 개의 pdf 파일이 있습니다. 그러나 문서에서 키워드를 검색 할 때 강조 표시가 한 문서에서만 작동하고 다른 문서에서는 작동하지 않습니다. 예를 들면 : 문서 중 하나에있는 "공황"을 검색 할 때. 강조 표시된 검색 결과를 얻습니다. 그러나 "엡실론"을 검색 할 때 문서 정보 등으로 발견되었다는 결과가 나오지만이 문서의 강조 표시는 작동하지 않습니다. 다음과 같이solr pdf 검색 강조 표시

. 
    . 
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true"> 
     <analyzer type="index"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <!-- in this example, we will only use synonyms at query time 
     <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> 
     --> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.StandardTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
    </fieldType> 
. 
. 
    <field name="_text_" type="text_general" multiValued="true" indexed="true" stored="true"/> 
    <field name="content" type="text_general" multiValued="true" indexed="true" stored="true"/> 
    . 
    . 
    <copyField source="content" dest="_text_"/>

을 그리고, solrconfig.xml 조각은 다음과 같습니다 : 추가 된 뭐죠 가 Heres는/managed_schema.xml 변경

. 
. 
<requestHandler name="/update/extract" 
        startup="lazy" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="lowernames">true</str> 
     <str name="fmap.meta">ignored_</str> 
     <str name="fmap.content">_text_</str> 
    </lst> 
    </requestHandler> 
. 
.

출처

2017-04-24 user7913157

검색 쿼리를 사용하여 "엡실론"이라는 단어가 Solr에서 색인 된 방법을 확인하고 여기에 공백이나 대문자가 들어 있는지 확인하십시오. 또한 "_ \ _ text \ __"필드 ("색인"과 "쿼리")에 대해 어떤 종류의 분석기를 사용하고 있는지 확인하십시오. 이 문제를 추가하여 문제를 찾을 수 있도록하십시오. – Riya

@Riya 나는 내가 찾고있는 단어가 문서에서 "있는 그대로"있다고 확신한다. 또한 필드 유형 세부 정보를 포함하는 편집을 수행했습니다 – user7913157

다시 한번 검색 및 강조 표시는 하나의 pdf doc (작은 크기의 pdf 파일)에서 작동합니다. 그러나 검색은 작동하지만 다른 pdf (상대적으로 더 큰 크기)에 대해서는 강조 표시하지 않습니다. 그게 도움이된다면. – user7913157

사용 된

hl.maxAnalyzedChars = aLargeEnoughValue

매개 변수 및 문서 아래쪽에있는 검색 단어를 강조 표시합니다. 이 매개 변수의 기본값은 51200입니다.

Take-away : Solr에서 색인을 생성하면 큰 문서가 검색 결과에 + ve 결과를 표시하지만 강조 표시는 null/nothing이 될 수 있습니다. 검색 한 단어가 문서 아래쪽에 있으면이 문제가 발생합니다. 단순히 hl.maxAnalyzedChars의 값을 높이면 작업이 수행됩니다.

출처

2017-04-25 13:43:28 user7913157

solr pdf 검색 강조 표시

답변

관련 문제