2010-08-05 10 views
1

이것을 서언하기 위해, 나는 여러 곳에서 이것에 대한 토론이 있음을 알고 있습니다. 내가 읽은 것의 절반은 오래된 것입니다. 버그가 있거나 단순히 내 상황과 관련이 없습니다.프로젝트 생각 : PDF 디렉토리 검색

이것이 내가 알고있는 커뮤니티에 가져 오는 이유입니다.

질문 : PDF 문서 (문서의 범위는 20 - 100s 페이지, 약 70,000 페이지까지)에 약 70,000 페이지의 디렉터리가 있습니다 (온라인 이상적).

나는이 PDF 제품을 검색하는 가장 쉬운 방법에 대한 방법, 스크립트 또는 아이디어를 찾고 있습니다. PDF에는 모두 Acrobat의 OCR에서 만든 텍스트 레이어가 있습니다.

모든 아이디어가으로 정교하고 창의적이든 환영합니다.

+0

가장 쉬운 방법은 항상 빠릅니다. 명확히하십시오. – stillstanding

+0

음, 거기에 도달하는 방법 (코드별로)은 간단 할 필요는 없습니다. 검색하는 방법. 나는이 PDF에 대한 간단하고 빠른 검색을 원합니다. –

답변

2

내 권장 사항은 Apache Solr (Lucene을 사용하여 구축 된 검색 서버)이며 RESTful 인터페이스를 사용하여 사용하기가 쉽지 않습니다. 또한 Tika이라는 하위 프로젝트가있어 여러 형식 (PDF 포함)에서 메타 데이터 및 구조화 된 텍스트 콘텐츠를 추출합니다.

+0

이것은 확실히 살펴볼 항목입니다. 그것은 매우 실용적인 옵션이 될 수도 있습니다. 감사! –

2

Lucene 또는 Sphinx와 같은 검색 엔진을 사용하여 PDF 색인을 만들고 태그를 지정하십시오. Zend Framework에는 a component to read and write PDF filesa Lucene implementation이 있습니다.

+1

스핑크스는 PDF 파일을 직접 색인 할 수 없습니다. 텍스트를 내보낼 항목이 필요합니다. 그것은 아래에 제공된 pdftotext 솔루션과 결합 될 수 있습니다. 나는 그것을 사용하지 않았으므로 Lucene에 대해서 모른다. – Cfreak

+0

젠드 밖에서 할 수있는 기회가 있습니까? CodeIgniter, 예를 들면? 그렇지 않으면 나는 아마 젠드 레인을 우연히 발견 할 수 있었고 그것이 어떻게 진행되는지 볼 수있었습니다. –

+2

@gamerzfuse Zend_PDF와 Zend_Search_Lucene은 별도로 사용할 수 있습니다. ZF의 MVC 또는 다른 구성 요소를 사용할 필요가 없습니다. CodeIgniter와 ZF 구성 요소를 함께 사용할 수 있습니다. – Gordon

2

XPDF에는 종종 Linux 배포판에 설치되는 pdftotext라는 유틸리티가 있습니다. 나는 그것을 사용하는 툴을 만들어서 그들이 나타나는 문서에 대한 단어의 색인을 생성합니다. 데이터베이스에 색인을 저장하고 그 색인을 검색 할 수 있습니다.

약간 더 많은 공간이 필요하지만 검색 결과에 표시 할 문맥 문장을 포함시키는 것은 간단합니다.

+0

이것은 원래의 생각 중 하나 였지만 그때 나는 그것이 넓고 유익한 PDF가 대부분 텍스트 인 것처럼 제품에 이상적이지 않을 것이라고 생각했습니다. –

관련 문제