PDF에서 추출한 이미지 구성

PDF에서 이미지를 수집하고 pdfBox를 사용하여 폴더에 저장하는 코드가 있습니다. 내가 그 (것)들에 대해 아무것도 모르기 때문에 이미지는 쓸모가 없다. PDF에는 섹션 헤더와 1-3 개의 그림이 있습니다. 어쨌든 프로그램을 변경하여 그들이 어떤 섹션에서 왔는지 알려줄 수 있습니까? PDF에 추가 메타 데이터를 포함PDF에서 추출한 이미지 구성

public static void main(String[] args) throws IOException { 

     PDDocument document = null; 
     try { 
      document = PDDocument.load("C:\\Users\\564864\\Downloads\\wsh2012.pdf"); 
     } catch (IOException ex) { 
      System.out.println("" + ex); 
     } 
     List pages = document.getDocumentCatalog().getAllPages(); 
     Iterator iter = pages.iterator(); 
     int i =1; 
     String name = null; 

     while (iter.hasNext()) { 
      PDPage page = (PDPage) iter.next(); 
      PDResources resources = page.getResources(); 
      Map pageImages = resources.getImages(); 
      if (pageImages != null) { 
       Iterator imageIter = pageImages.keySet().iterator(); 
       while (imageIter.hasNext()) { 
        String key = (String) imageIter.next(); 
        PDXObjectImage image = (PDXObjectImage) pageImages.get(key); 
        image.write2file("C:\\Users\\564864\\Desktop\\Java\\helloworld\\images\\" + i+""); 
        i ++; 
       } 
      } 
     } 

    }

출처

2012-08-10 Mike

하지 않는 한, PDF 파일 내부에 섹션이 없습니다 : 여기

는 코드입니다. 나는 구조화 된 텍스트 (이미지에도 동일하게 적용)에 대한 기사를 썼다. http://www.jpedal.org/PDFblog/2012/06/extracting-structured-text-from-pdf-files/

출처

2012-08-11 07:57:52

PDF에서 추출한 이미지 구성

답변

관련 문제