2013-02-20 2 views
1

하나 이상의 이미지가 포함 된 모든 페이지 (예 : 페이지 번호)를 찾기위한 프로그래밍 솔루션을 찾고 있습니다. 이미지 자체는 필요 없으며 페이지 번호 만 있으면됩니다. 쉘 스크립팅 솔루션이나 파이썬 솔루션이 선호되지만이 작업을 완료하는 데 도움이되는 모든 것이 좋습니다.이미지가 포함 된 PDF 페이지 가져 오기

배경 : PDF를 읽는 중이고 OCR을 실행하는 것이 적절한 페이지를 알아야합니다.

답변

1

poppler-utils 패키지의 유틸리티 인 pdfimages을 사용하는 것이 해결책 중 하나입니다. 그것은 출력 PDF 파일에 저장되어있는 이미지에 대한 몇 가지 정보를 수

$ pdfimages -list file.pdf 
page num type width height color comp bpc enc interp object ID 
--------------------------------------------------------------------- 
    1  0 image  200 197 rgb  3 8 jpeg no   7 0 

페이지 번호

가의 별 하나합니다 ( ImageMagik 패키지) (1부터 계산), identify있는 당신에게 모든 페이지 번호를 표시 할 수 있습니다 :

$ identify -format '%p ' file 
0 1 2 3 

페이지 2는 페이지 2,3가 이미지를 포함하지 않는다는 것을 알 수 있습니다.

관련 문제