2009-07-01 3 views
1

PDF에서 텍스트를 추출하고 가능한 한 원래 레이아웃 (예 : 테이블, 컬럼 등)을 유지하면서 일반 텍스트로 서식을 지정하기위한 유틸리티 또는 라이브러리를 찾고 있습니다.형식이있는 ASCII로 PDF 변환 - 현재 상태는 어떻습니까?

우리는 현재 pdftotext를 사용하고 있지만 더 좋은 점이 있는지 궁금합니다. 명령 행 도구이거나 앱에 링크 할 수있는 라이브러리 여야합니다.

pdftotext는 좋은 것처럼 보이거나 더 좋은 점이 있습니까?

+0

많은 pdf 도서관이 있습니다 ... 그냥 Google로. –

답변

1

동일한 문제가있는 다른 사용자를 위해 : 글꼴 하위 집합을 사용할 때 가비지 출력을 생성하는 것과 같은 단점에도 불구하고 pdftotext으로 머물렀다.

도 참조 : 문제의 http://www.glyphandcog.com/textext.html

0

AbiWord에는이 동안 SoC 프로젝트가있었습니다. IIRC, 다중 열 문서, 표 및 그림을 재현하는 데 매우 효과적이었습니다. 명령 줄 인터페이스도 있습니다.

0

일부는 내가 정적 이미지와 같은 PDF 파일의 한 부분으로 텍스트를 추가하지만 텍스트를 저장하지 않는 단순한 PDF 조작/제작 도구의 일부를 생각한다는 것입니다. 이러한 파일의 경우 OCR을 사용해야합니다.

관련 문제