2014-11-17 4 views
0

SOLR Tika 및 문서 인덱싱과 딜레마가 있습니다. 이것이 SOLR 및 Tika과의 첫 접촉 이었기 때문에 아직 학습 단계에 있습니다. 지금까지 나는 그것을 작동 시켰고 결과에 대해서도 적절한 강조 표시를 리턴했다. 그것은 예상대로 작동합니다.인덱싱 된 SOLR 문서에 쿼리 만들기 - 강조 표시 사용

뭔가 나에게 이해가되지 않습니다. 결과가 돌아올 때마다 내가 사용하는 필드 (ID, 이름 및 기타 정보)를 수신하고 올바르게 작동하는 강조 표시를 수신하지만 실제로 필요하지 않은 콘텐츠 필드도 수신합니다. 600KB의 텍스트가있는 파일을 업로드하고 색인을 생성한다고 가정 해보십시오. 텍스트가 포함 된 콘텐츠를 얻게되면 상황이 느려집니다. 학습 목적으로 예제 폴더에 포함 된 기본 Schema.xls를 사용합니다. 나는이 일을 위해 애 쓰고되면서

, 나는 (이 XML 추가)의 schema.xml 이러한 변경

<copyField source="features" dest="text"/> 
<fieldType name="features" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.ManagedStopFilterFactory" managed="english" /> 
    <filter class="solr.ManagedSynonymFilterFactory" managed="english" /> 
    </analyzer> 
</fieldType> 

그리고 기능이했다. 나는 문서의 이름을 기반으로 literal.id를 결정하기로

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F 
"[email protected]" 

내 방법은 동적 : 티카 사이트에 표시된 것처럼

나는 비슷한 방식으로 SOLR에 문서를 게시 할 수 있습니다. 그러나 essentialy 같은 게시물입니다.

나는이 같은 SOLR에서 문서를 GET : 하이라이트를 포함하여 JSON 개체를 반환

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true 

합니다. 문제는 콘텐츠 속성도 얻고 있기 때문에 필요하지 않습니다.

내 자신의 스키마 파일을 작성하고이 기능을 사용했던 잘못된 필드 (기능)로 해결할 준비가되었습니다.

내가이 일을했다,하지만 난 내가 길을 잘못했다 알고 것은 내가

내가 하이라이트를 얻을 수있는 다른 쿼리가 있어야합니다 알고 또한 내가 기능을하지 않을 것을 알고있는 잘못된 방법을 볼 수 없습니다입니다 used, content 필드로 충분합니다.

답변

1

the fl parameter : &fl=id,name,etc을 입력하여 반환되는 입력란을 결정할 수 있습니다.

+0

예. 내가 원하지 않는 매개 변수를 제거하자마자 100 % 개선되었습니다. 고맙습니다. –