2013-02-27 3 views
2

사용자가 pdf 문서를 검색하고 pdf.js.에서 볼 수있는 웹 애플리케이션을 구축 중입니다. 검색어가있는 곳의 단락과 오른쪽 페이지에서 문서를 여는 링크가있는 검색 결과를 표시하고 싶습니다.solr에서 pdf의 검색 결과 페이지 번호 가져 오기

그래서 내가 필요로하는 것은 모든 검색 결과의 페이지 번호와 짧은 텍스트 스 니펫입니다.

저는 PDF 문서를 색인하기 위해 SOLR 4.1을 사용하고 있습니다. 색인 자체는 잘 작동하지만 검색 결과의 페이지 번호와 단락을 얻는 방법을 모르겠습니다.

여기에서 "Indexing PDF with page numbers with Solr"을 발견했지만 실제로 도움이되지 않았습니다.

답변

1

이제 PDF를 분할하여 각 페이지를 SOLR로 개별적으로 보냅니다. 모든 페이지는 id가 <id_of_document>_<page_number> 인 문서와 결과를 그룹화하기 위해 <id_of_document> 만 포함 된 추가 필드 doc_id입니다.

+0

안녕하세요 @ Gesh 어쩌면 어떻게 공유 할 수 있습니다 당신은 당신의 PDF를 나눌 manag 않았다? – zygimantus

0

확인할 수있는 JIRA SOLR-380 패치가 있습니다.

+0

Thx,하지만 Tika가 변환 한 pdf 파일에서는 작동하지 않는 것 같습니다. 또한이 패치가 SOL 4.1과 함께 작동하는지 의심 스럽습니다. – Gesh

0

페이지 번호로 결과를 가져 오려고했지만 시도 할 수 없었습니다. 디렉토리에있는 모든 PDF를 분할하고 파일을 Solr 서버로 보내는 데 Apache PDFBox를 사용했습니다.

+0

그래서 PDFBox를 두 번 사용하셨습니까? 분할 할 때 그리고 파싱 할 때? – zygimantus

+0

아니요. PDFbox를 한 번만 사용했습니다. 여러 페이지로 분할하고 제목에 상위 파일 이름을 입력하는 데 사용했습니다. 그런 다음 파일을 Solr 서버로 보냈습니다. 상위 파일 이름 + 페이지 번호 조합을 사용하여 파일을 열었습니다. –

관련 문제