2011-02-05 4 views
4

PHP 또는 Linux 라이브러리를 사용하여 PDF 문서의 모든 텍스트 필드의 X/Y 좌표 및 높이/너비를 구할 수 있습니까? PDF에서 모든 텍스트 필드를 추출하는 데 PDFTK를 사용하고 있지만 좌표 및/또는 치수 정보를 제공하지 않습니다. 그렇지 않은 경우 PDF 문서를 탐색하고 텍스트 필드의 x, y 및 높이/너비 데이터를 계산할 수 있습니까?PDF에서 텍스트 필드의 치수 및 좌표 가져 오기

답변

0

가능한 일이지만 거의 수행 할 수 없습니다.

FPDI을 사용하여 PHP 문서를 PDF로 열 수 있습니다. 메모리에 PDF 객체의 추상 트리를 생성합니다. TCPDF 및 FPDF는이를 다시 저장할 수 있습니다.

그러나 트리를 가로 지르고 올바른 속성을 찾는 것은 매우 어렵습니다. (저는 실수로 동사입니다.)

이제 PDF 형식은 실제로 사람이 읽을 수 있습니다. 그리고 그것은 좌표를 읽을 수있는 형식으로 포함합니다 (대부분 IIRC를 사용합니다). 따라서 어디를보아야하는지 간단히 알 수 있다면 간단한 정규 표현식으로 그것을 발견 할 수 있습니다. 일부 노드는 gzuncompress() 될 필요가 있으며 문서를 수정하거나 다시 저장하려고 시도하지 않습니다. 따라서 FPDI와 print_r()을 시도하여 전략을 세웁니다.

0

예, 너무 어렵지 않습니다. 그 직업에 대해 알고있는 가장 좋은 도구는 pdfminer입니다. 파이썬이지만 파이썬을 사용하고 싶지 않다면 xml 형식의 pdf 정보를 덤프하고 선택하는 무기로 구문 분석 할 수 있습니다 :) 문제가 있으면 회신하십시오 :)

관련 문제