PDF에서 데이터 추출

-1

나는 데이터베이스에 입력해야하는 15 일 이상의 PDF를 얻습니다. 이 테이블은 특정 테이블 필드에서 "공백"이 채워지는 테이블에서 생성됩니다. 내가 작성하거나 데이터베이스 테이블로 가져올 테이블을 만들 PDF에서 데이터를 추출하는 방법을 시도하고 개발하는 데 사용할 수있는 도구 또는 파이썬 코드 예제? 데이터베이스는 현재 Access mdb입니다. 감사합니다PDF에서 데이터 추출

출처

2016-10-06 Tyler Veinot

[오프 사이트 리소스 권장 사항을 묻는 질문은 스택 오버플로에 대한 주제와 관련이 없습니다] (// meta.stackoverflow.com/q/251134/2747593). 대신 * 작성한 코드에 대한 특정 질문이있는 경우 [시도한 내용] (http://whathaveyoutried.com)을 표시하고 [mcve]를 반드시 포함하십시오. See also [ask]. –

사용할 수있는 방법이 많이 있습니다. 한 가지 간단한 방법은 PDF 파일을 텍스트 파일로 인쇄 한 다음 Access에서 해당 텍스트를 가져 오는 것입니다. 최근의 모든 Windows 버전에서는 문서를 텍스트 파일로 출력하는 "텍스트"프린터를 설치할 수 있습니다. pdfs 폴더에 "프로세스"액세스하여 텍스트로 인쇄 한 다음 해당 텍스트 파일을 가져올 수 있습니다. 데이터를 Access로 가져 오기 전에 "페이지"와 일부 추가 행을 제거하려면 VBA가 필요할 수 있습니다.

또 다른 방법은 Word (Automate from Access)를 사용하여 PDF를 여는 것입니다. 단어가 pdf를 열면 단어 문서로 변환됩니다. 이 접근법은 행을 단어 표로 형식화합니다. 그런 다음 해당 테이블 데이터를 추출하여 해당 데이터를 단어로 보낼 수 있습니다. 데이터를 텍스트 파일에 쓰지 않고 텍스트를 꺼내거나 텍스트 파일에 "save-as"라는 단어를 사용하면 (Access에서이 프로세스를 자동화 할 수 있습니다).

또 다른 방법은 PDF에서 텍스트를 추출 할 수있는 무료 고스트 스크립트 라이브러리를 사용하는 것입니다 (사용자의 취향에 따라 단어가없는 경우이를 고려할 것입니다).

따라서 가장 적합한 솔루션은 Access를 실행하는 컴퓨터에 설치하려는 현재 소프트웨어에 따라 다릅니다. 낱말로 pdf 파일을 여는 것은 나의 첫번째 선택 및 시험 일 것입니다.

출처

2016-10-08 05:07:46

이것은 나를 위해 일해서 전체 솔루션을 구현하지는 못했지만 데이터를 검색하고 추출 할 수있는 형식이 있습니다. 도와 주셔서 감사합니다 –

내 옛 직장에서 우리는 아주 빨리 Excel 스프레드 시트로 PDF를 변환 Cogniview를 사용했습니다. 파이썬을 사용하고 싶다면 빠른 검색을 통해 나에게이 결과를 얻을 수 있습니다. PDF to XLS with Python

출처

2016-10-06 18:36:42

변환을위한 웹 도구를 보았지만 파이썬 용 API는 아니 었습니다. 그러나 테스트 한 후에는 2 가지 문제가있었습니다. 제한 사항이 없으며 웹 도구입니다. API는 단지 python이 서버에 연결되도록합니다. 나는이 pdf가 오픈 상태가되어 툴이 불행히도 문제가되지 않도록하고 싶지 않다. 그러나 귀하의 응답은 저를 PDFQuery와 PDF Miner로 안내해주었습니다. 이 두 모듈 중 하나에 대한 리소스를 알고 계십니까? –

저는 개인적으로 그 중 하나를 사용하지 않았습니다. [이] (https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf)와 [this] (https : // www) 이외에도 훌륭한 문서가 있습니다. .binpress.com/tutorial/manipulating-pdfs-with-python/167). 행운을 빌어 요! –

PDF에서 데이터 추출

답변

관련 문제