2016-09-29 6 views
1

Perl을 사용하여 정보를 추출하려면 PDF 파일을 텍스트로 변환해야합니다. 그러나 텍스트 파일을 위치 형식으로 가져 오지 못하는 것은 PDF의 요소 위치가 같아야한다는 것을 의미합니다. 나는 CAM::PDF::PageText을 시도했지만 출력이 매우 다릅니다.PDF에서 텍스트로 위치 데이터를 얻는 방법

나는 pdftotext 및 Poppler를 언급하는 게시물을 발견했지만 내 Windows 10 64 비트 시스템에서는 이들 중 하나를 설정할 수 없습니다.

이 문제를 해결할 수있는 다른 방법이 있으면 알려주십시오.

+0

http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx

+0

텍스트 편집기에서 Acrobat의 텍스트를 복사하여 붙여 넣은 것으로 생각하십니까? – Borodin

+0

붙여 넣기 데이터를 복사 할 수 있지만 나중에 텍스트 파일에서 정보를 추출해야하므로 형식이 PDF와 유사하지 않습니다. – Mohit

답변

0

늦어서 죄송합니다. 그러나 마지막으로 저는 Xpdf에 의해 pdftotext이며 가장 좋은 방법은 미리 컴파일 된 바이너리 (.exe) 파일을 다운로드하는 방법입니다. 그리고 우리가 pdftohtml 같은 다양한 도구를 사용할 수있는 Section 명령 라인 invaocation를 사용하여, pdftotext 등

당신이 할 수있는이 페이지

http://www.foolabs.com/xpdf/download.html

에서와 "미리 컴파일 된 바이너리"제목 아래 봐 그걸 찾아요. 명령 프롬프트에

당신은 바이너리가 다음 매개 변수로 파일과 바이너리를 호출 존재하는 곳으로 디렉토리를 변경해야

Exapmle: pdftotext File1.pdf 

위의 명령은 같은 폴더에은 File2.txt을 줄 것이다 어디 바이너리가 존재합니다.

1

What you really want-xml 출력의 pdftohtml입니다. 당신은 build it on Windows 일 수 있습니다. 이 문서는 두 번째 방법을 설명 Cygwin에서

  • 기본 비주얼 스튜디오를 사용하여 (MSVC) 메이크
  • 에서와 Mingw 컴파일러를 사용하여

    관련 문제