2016-09-02 7 views
0

Solr에서 색인을 생성 할 내 컴퓨터에 여러 개의 PDF 파일이 있습니다. 이를 위해 사용자 정의 필드 유형 및 사용자 정의 필드가있는 스키마 파일을 만들었습니다. 아래색인 생성 중에 사용자 지정 Solr 분석기가 사용되지 않습니다.

schema.xml 필드와 copyFields 있습니다

<field name="id" type="custom01" indexed="true" stored="true" required="true" multiValued="false" /> 
<field name="_version_" type="long" indexed="true" stored="false"/> 
<field name="_root_" type="string" indexed="true" stored="false" docValues="false" /> 
<field name="_text_" type="custom02" indexed="true" stored="true" multiValued="true"/> 
<field name="fileEx" type="custom03" indexed="false" stored="true" multiValued="false"/> 

<copyField source="id" dest="fileEx"/> 

id 필드는 인덱스 파일의 실제 경로를 포함합니다. 이 값을 fileEx에 복사하고 필드 정의에 지정된대로 사용자 지정 분석기를 사용하여 필드의 파일 확장명을 저장할 계획입니다.

I 색인이 스키마를 사용하여 파일을 시도
<fieldType name="custom01" class="solr.TextField"> <!-- Dummy fieldType --> 
<analyzer> 
<tokenizer class="solr.PatternTokenizerFactory" pattern="^$"/> 
</analyzer> 
</fieldType> 

<fieldType name="custom02" class="solr.TextField"> 
<analyzer> 
<tokenizer class="solr.PatternTokenizerFactory" pattern="\.([^.]*$)" group="0"/> 
<filter class="solr.PatternReplaceFilterFactory" pattern="\." replacement=""/> 
</analyzer> 
</fieldType> 

id 필드의 내용은 단지 다 어떤 분석없이 fileEx에 복사했다 :

다음

내 사용자 정의 fieldType 정의입니다. idfileEx은 모두 동일한 값을 가졌습니다. SolrUI의 analyzer 탭을 사용하여 fieldtypes가 실제로 작동하는지 확인하고 예상대로 작동하는지 확인했습니다.

하지만 실제 문서를 인덱싱하는 동안 분석기가 제대로 작동하지 않는 것처럼 보입니다.

그래서이 시점에서 나는 갇혀 있고 좌절하고 있습니다. 이것에 관한 도움은 매우 감사하겠습니다. TIA.

답변

1

히트에서 반환 된 텍스트가 변경되지 않은 이유를 정확히 알고 있습니까? 돌려 주어지는 텍스트는, 필드의 토큰 화 된 내용은 아니고, 처리 전의 값입니다. 분석기를 변경하면 반환되는 값이 변경되지 않습니다. 강조 표시와 같은 작업을 올바르게 수행하는 데 필요합니다.

필드에 도착하기 전에 텍스트를 변경하려면 an update processor을 사용하십시오. `ID : C : \ 사용자 \ User01과 \ 다운로드 \ test.pdf` `fileEx : C : \ 사용자

+0

내 문제는 때 인덱스 파일 것은, 그것이 이런 식으로 뭔가를 인덱싱이다, 명확히하기 위해 \ User01과 \ 다운로드 \ test.pdf' 하지만, 내가 원하는 것은 : 'ID : C : \ 사용자 \ User01과 \ 다운로드 \ test.pdf' 'fileEx : PDF' –

+0

그래서, 당신은 무슨 말을하는거야 'localhost : 8983 /.../ browse '을 사용하여 색인을 탐색 할 때 분석기가 변경 한 사항이 표시되지 않는다는 것입니다. –

+0

@ Stack-Boi 그래. 찾아보기 인터페이스에는 처리 된 토큰이 아니라 저장된 텍스트 만 표시됩니다. 분석 페이지는 토큰 생성 및 일치에서 실제로 장면 뒤에서 일어나는 일을 보여줍니다. – MatsLindh