2014-08-29 2 views
0

정기적으로 많은 수의 동일한 PDF 양식이 수신됩니다. 나는 그 (것)들에서 원본 파일로 자료를 추출하고 싶다. 나는 이것을 어떤 종류의 스크립트를 통해하고 싶습니다. 나는 유닉스 환경에서 일하고있다.많은 PDF 양식에서 데이터 추출

이것이 가능합니까? 나는 내 두뇌를 봤어 아무것도 찾을 수 없습니다.

답변

0

PDF의 텍스트는 페이지 콘텐츠 스트림의 텍스트 요소로 표현됩니다. 스트림은 일반적으로 압축됩니다. 시간과 리소스가있는 경우 ISO 32000-1 : 2008 또는 Adobe PDF 1.7 사양을 사용하여 자체 PDF 파서를 작성할 수 있습니다. 또는 중간 번역 단계로 타사 앱을 사용하는 것이 더 실용적 일 수 있습니다.

스트림을 디코딩하고 일반 텍스트를 제공하는 유틸리티가 있습니다. 한 가지 옵션은 사용자 환경에서 작동하는 PDFtk Server입니다. 또 다른 옵션은 PDF의 문자열 검색에 유용한 명령 줄 유틸리티 "pdftotext"가있는 Poppler PDF 렌더링 라이브러리를 사용하는 것입니다.

+0

op에서 PDF 양식에 대해 이야기했습니다. PDF 양식 내용은 ** 페이지 내용의 ** 일부가 아닙니다. 따라서 페이지 내용을 추출해도 도움이되지 않습니다. 물론 op가 사양에 따라 PDF 양식을 의미한다고 가정합니다 ... – mkl

+0

슬프게도 저는 오픈 소스 도구가 서버에 많이 설치되어 있지 않으며 설치할 수 없습니다. 일부 Acrobat 라이브러리와 함께 VBA를 사용하여이 추출을 Excel에서 수행하는 것이 가능하다는 것을 발견했습니다. 슬프게도, 이것은 내 문제에서 도움이되지 않지만 Excel 솔루션은 꽤 쉽습니다. – Greg