2009-06-16 4 views
41

건물의 바닥지도 인 커다란 PDF 파일이 있습니다. 그것은 좌석 위치의 텍스트 상자를 포함하여 모든 사무용 가구에 대한 레이어가 있습니다.PHP로 PDF 파일보기

제 목표는 PHP로이 파일을 읽고, 텍스트 레이어를 찾기 위해 문서를 검색하고, 파일의 내용과 좌표를 가져 오는 것입니다. 이렇게하면 좌석 위치 -> x/y 좌표를 매핑 할 수 있습니다.

PHP를 통해이 작업을 수행 할 수있는 방법이 있습니까? (또는 심지어 루비 또는 파이썬이 필요한 경우)

+0

마크 업 코드에 "좌표"가 포함되어 있습니까? 그렇지 않은 경우 원하는만큼 검색 할 수 있습니다. PHP는 PDF 파일의 픽셀 좌표를 찾을 수 없습니다. 그림 등을 사용하여 좀 더 자세하게 "문제"를 설명하려고 시도하십시오. –

+0

안녕하세요, 귀하의 질문에 대한 답변을 찾으셨습니까? 내가 similarar 문제에 갇혀서 해결책을 찾을 수 없기 때문에 ... 그리고 만약 하나를 발견했다면, 어떻게하면 PDF 파일에서 이미지의 좌표를 얻었는지 말해 줄 수 있겠습니까? ... –

+0

@PigalevPavel 죄송합니다, 내가하지 않았다 : ( –

답변

27

체크 아웃 FPDF는 :

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

이들은 당신이 PDF 파일을 열고 PHP에 콘텐츠를 추가 할 수 있습니다. 필요로하는 값에 대해 기존 콘텐츠를 검색하는 기능을 사용할 수도 있습니다. http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf

업데이트보다 현대 라이브러리 추가 : 당신은이 응용 프로그램 http://pdfbox.apache.org/을 시도 할 수도 PDF Parser

+2

PHP로 pdf를 파싱하는만큼, pdfparser http : //www.pdfparser.org/documentation은 청결하고 직관적 인 프로그래밍 인터페이스를 가지고 있습니다. – Nate

+2

안녕하세요!! pdf 파서 라이브러리를 답에 추가했습니다 .6 세 응답에서 downvote를 주셔서 감사합니다. – Jay

+0

그래서 "주로 의견을 기반으로" 질문은 여기에 처음부터 범위를 벗어났습니다. 또한 6 세 질문에 대해 의견을 표명하는 것에 대해 나쁘지 않다고 생각합니다. 그러나이 경우 투표가 어리석은 데 동의합니다. 그래서 나는 당신을 업 그레 이드했습니다.) –

0

흠 ... 정확하게 PHP는 아니지만, PHP에서 프로그램을 호출하여 pdf를 임시 html 파일로 변환 한 다음 결과 파일을 PHP로 구문 분석 할 수 있습니다. 나는 내 프로젝트에 대한 비슷한 일을 해봤이 내가 사용하는 프로그램입니다 :

PdfToHtml

어떤 프로그램에 대한 멋진 것은 절대 위치와 < div> 태그에 텍스트 요소를 뱉어 것입니다 좌표. 이것이 바로 당신이하려는 일인 것처럼 보입니다. (FPDI와)

+1

안녕하세요 당신의 결과를 달성하는 방법을 샘플 코드를 게시 할 수 있습니다. 내가 적절한 문서를 찾을 수 없습니다. 그것은 위대 할 것입니다. – Tarik

0

또 다른 가능한 라이브러리는 TCPDF입니다. 작업 예제는에서 찾을 수 있습니다

+0

죄송합니다. 그러나 이것은 PHP가 아닌 자바입니다. -/ –

19

당신이 원하는 것을 정확하게하는 PHP 라이브러리 (pdfparser)가 있습니다.

프로젝트 웹 사이트

http://www.pdfparser.org/

GitHub의

https://github.com/smalot/pdfparser

데모 페이지/API를

http://www.pdfparser.org/demo

프로젝트에 pdfparser을 포함 후에는과 같이 mypdf.pdf에서 모든 텍스트를 얻을 수 있습니다 :

<?php 
$parser = new \installpath\PdfParser\Parser(); 
$pdf = $parser->parseFile('mypdf.pdf'); 
$text = $pdf->getText(); 
echo $text;//all text from mypdf.pdf 

?> 

는 시뮬 당신이 PDF 객체를 얻기로 아로 PDF 파일에서 메타 데이터를 얻을 수 있습니다 (예를 들어, 이미지) .

+0

이것은 실제로 유망 해 보입니다. 거의 3 년 후 - 감사합니다! :) –