PDF에서 텍스트로 위치 데이터를 얻는 방법

Perl을 사용하여 정보를 추출하려면 PDF 파일을 텍스트로 변환해야합니다. 그러나 텍스트 파일을 위치 형식으로 가져 오지 못하는 것은 PDF의 요소 위치가 같아야한다는 것을 의미합니다. 나는 CAM::PDF::PageText을 시도했지만 출력이 매우 다릅니다.PDF에서 텍스트로 위치 데이터를 얻는 방법

나는 pdftotext 및 Poppler를 언급하는 게시물을 발견했지만 내 Windows 10 64 비트 시스템에서는 이들 중 하나를 설정할 수 없습니다.

이 문제를 해결할 수있는 다른 방법이 있으면 알려주십시오.

출처

2016-09-29 Mohit

http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx

텍스트 편집기에서 Acrobat의 텍스트를 복사하여 붙여 넣은 것으로 생각하십니까? – Borodin

붙여 넣기 데이터를 복사 할 수 있지만 나중에 텍스트 파일에서 정보를 추출해야하므로 형식이 PDF와 유사하지 않습니다. – Mohit

늦어서 죄송합니다. 그러나 마지막으로 저는 Xpdf에 의해 pdftotext이며 가장 좋은 방법은 미리 컴파일 된 바이너리 (.exe) 파일을 다운로드하는 방법입니다. 그리고 우리가 pdftohtml 같은 다양한 도구를 사용할 수있는 Section 명령 라인 invaocation를 사용하여, pdftotext 등

당신이 할 수있는이 페이지

http://www.foolabs.com/xpdf/download.html

에서와 "미리 컴파일 된 바이너리"제목 아래 봐 그걸 찾아요. 명령 프롬프트에

당신은 바이너리가 다음 매개 변수로 파일과 바이너리를 호출 존재하는 곳으로 디렉토리를 변경해야

Exapmle: pdftotext File1.pdf

위의 명령은 같은 폴더에은 File2.txt을 줄 것이다 어디 바이너리가 존재합니다.

출처

2016-11-25 05:52:59 Mohit

What you really want은 -xml 출력의 pdftohtml입니다. 당신은 build it on Windows 일 수 있습니다. 이 문서는 두 번째 방법을 설명 Cygwin에서

기본 비주얼 스튜디오를 사용하여 (MSVC) 메이크

에서와 Mingw 컴파일러를 사용하여

:

2 개 Windows에서 poppler를 컴파일하는 방법이 있습니다 . ...

당신은 컴파일러의 2013 및 2015 버전을 얻고 IDE와 함께 도구를 구축하는 라이센스 조건에 Visual Studio Community Edition 주제를 다운로드 할 수 있습니다.

아니면 그냥 Visual C++ build tools을 얻을 수 있습니다. Walkthrough: Compiling a Native C++ Program on the Command Line도 참조하십시오.

출처

2016-09-29 14:17:59

PDF에서 텍스트로 위치 데이터를 얻는 방법

답변

관련 문제