2009-10-23 2 views

답변

0

일반 PDF는 실제로 마크 업 언어가 아닙니다. 텍스트는 특정 위치에 그려집니다. Tagged PDF이라는 이름의 문서가 있고 문서에 태그가 추가되면 작업이 쉬울 수도 있습니다.

텍스트 변환기가 PDF를 통해 문서를 실행하고 텍스트가 PDF가 아닌 텍스트의 텍스트로 저장되는 경우 텍스트의 첫 번째 청크를 얻는 경향이 있습니다.

1
print CAM::PDF->new('file.pdf')->getPageText(1); 

페이지의 텍스트가 모두 표시됩니다. 그러나 CAM :: PDF는 확실히이 특정 작업에 가장 적합한 도구는 아닙니다 (저는 저자입니다). 나는 텍스트 추출을 단지 내가 할 수 있는지 알아보기 위해 변덕으로 추가했다.

관련 문제