2010-08-06 5 views
1

저는 doc 또는 pdf와 같은 문서가 제출 될 때 solr이 어떻게 작동하는지 연구하려고했습니다. 나는 pdf를 solr에 제출할 것인지를 알고 싶습니다. pdf 파일을 파싱 한 후 생성 된 색인과 함께 pdf 파일을 저장하는 일이 끝나나요?Apache Solr - 색인 자체 내부에 저장된 문서 자체입니까?

감사합니다,

-Keshav

답변

4

SOLR (루씬은) 그 자체 "PDF 파일 저장소를 결국"하지 않습니다. 그러나 은 Tika와 같은 텍스트 추출기를 사용하여 PDF에서 추출한 PDF의 텍스트 내용을 저장할 수 있습니다 (사실 필드가 스키마에 저장된 것으로 표시되는 경우).

PDF 파일 전체를 저장하려면 PDF를 (예를 들어) Base64 표현으로 변환하고 base64 문자열을 "저장 됨"필드로 유지해야합니다. 따라서 문서에 액세스하면 Base64에서 PDF로 다시 변환됩니다.

+3

또는 pdf를 파일 시스템에 저장하고 해당 위치를 "저장 됨"필드에 저장하십시오. –

+0

Mikos, 답장을 보내 주셔서 감사합니다. PDF의 텍스트 내용을 저장할 수 있다고 언급하셨습니다. 그러나 색인 검색이 작동하려면 텍스트 저장소가 필요합니까? – Keshav

+1

검색 할 때 필요하지 않습니다. 그러나 강조 표시 (스 니펫)가 필요하면 저장해야합니다. – Mikos