2013-08-16 3 views
0

나는 독특한 문제에 직면 해있다. Tika DIHSolr tika 어떤 데이터도 저장하지 않음

데이터 설정이 같다 : 나는 여기에 SOLR 위키에 따라 내 데이터 설정 및 스키마를 구성

<dataConfig> 
<dataSource type="BinURLDataSource" name="bin" /> 
    <document> 
     <entity name="tika-test" processor="TikaEntityProcessor" 
       url = "http://adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_open_parameters.pdf" dataSource= "bin" format="text" > 
       <field column="Author" name="author" meta="true"/> 

       <field column="title" meta="true" name="title"/> 
       <field column="text" name="text"/> 
     </entity> 
    </document> 
</dataConfig> 

스키마는 다음과 같이이다 :

<fields> 
    <field name="title" type="string" indexed="true" stored="true"/> 

    <field name="author" type="string" indexed="true" stored="true" /> 


    <field name="text" type="text" indexed="true" stored="true" /> 


</fields> 
<uniqueKey>text</uniqueKey> 

내가 티카의 실행 항아리를 또한 위의 문서는 명령 줄에서 jar 버전을 사용할 때 완벽하게 처리됩니다. 그러나 solr을 사용하면 데이터 가져 오기에서 빈 필드 집합을 가져옵니다. 성공했지만 작성된 문서는 모든 필드에 대해 완전히 비어 있습니다. 내가 어디로 잘못 가고 있니?

ExtractingRequestHandler도 사용해 보았습니다.

<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler"> 
    <lst name="defaults"> 
     <str name="fmap.Last-Modified">last_modified</str> 
     <str name="uprefix">ignored_</str> 
    </lst> 
    </requestHandler> 

다음과 같은 요청을 시도 : : 심지어 로그 파일이없는

<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int></lst></response> 

:

curl "http://localhost:3533/solr/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=/home/superq/Downloads/tutorial.html" 

내가 좋아하는 빈 응답을 내 요청 처리기 설치 방법입니다 도움이 될만한 모든 것. 그리고 문서는 아직 색인되지 않았습니다. 또한 존재하지 않는 파일로 대상 파일 이름을 변경하면 오류를 발생시키지 않습니다.

내 질문은 : 난 그냥 SOLR 라이브러리 경로에 각각 티카 파일 (아티팩트를 구축) 복사 할 필요가 또는 나뿐만 아니라 서비스로 설치해야 할 SOLR의 티카 통합을위한

1)?

2) .doc/.pdf 파일의 이진 버전을 만든 다음 solr에 공급해야합니까? 나는 약간의 문학이 다소 혼란 스럽다는 것을 알았다. 티카가 돌보지 않아야할까요? 당신에게 유용 할 수 있습니다 티카 & 추출 요청 처리기 설정에

답변

1
+0

를 체크 아웃. 또한 data-config에서 url 스펙을 사용하여 폴더의 여러 문서를 색인하는 방법이 있습니다. 같은 호스트에 있습니다 : http://host.com/folder-with-documents. 그 중 하나는 서버의 절대 경로를 지정하는 것입니다. URL을 사용하여 동일한 작업을 수행 할 수 있습니까? –

관련 문제