자바를 사용하여 PDF 문서에서 정사각형, 직선, 선 등과 같은 그래픽 컴포넌트를 읽거나 추출하는 방법은 무엇입니까?

iText.But을 사용하여 생성 된 PDF 문서에서 모든 데이터 (정사각형, 직선, 선 등)를 추출하려고하는데 텍스트와 이미지가 아닌 내용을 추출 할 수 없습니다. 추출하고 싶습니다. 그래픽 구성 요소.자바를 사용하여 PDF 문서에서 정사각형, 직선, 선 등과 같은 그래픽 컴포넌트를 읽거나 추출하는 방법은 무엇입니까?

출처

2013-10-18 kerZy Hart

여기에는 3 가지 옵션이 있습니다 (적어도 그 중 하나는 내가 찾을 수있는 옵션 임). 정확히 무엇을 가지고 있는지 모르겠으므로 모든 3을 붙여 넣습니다.이 숫자는 어려움이 증가하는 단계입니다.

첫 번째 옵션 : 당신은 너무 같은 것을 할 수있는 : 다음 here을 표시되는 내용의 라인을 따라 뭔가를 사용하여, (HTML로 PDF 문서를 변환 할 수 here)

PDDocument document = null; 
document = PDDocument.load(inFile); 
List pages = document.getDocumentCatalog().getAllPages(); 
Iterator iter = pages.iterator(); 
while (iter.hasNext()) { 
      PDPage page = (PDPage) iter.next(); 
      PDResources resources = page.getResources(); 
      Map pageImages = resources.getImages(); 
      if (pageImages != null) { 
       Iterator imageIter = pageImages.keySet().iterator(); 
       while (imageIter.hasNext()) { 
        String key = (String) imageIter.next(); 
        PDXObjectImage image = (PDXObjectImage) pageImages.get(key); 
        image.write2OutputStream(/* some output stream */); 
       } 
      } 
}

두 번째 옵션에서 촬영을하고, 사용 JSoup을 사용하여 HTML을 처리하고 img 태그를 반복합니다. 나는 인데, 이미지가 렌더링 될 것이라고 가정합니다..

또는, Hough Transform을 살펴 수 :

허프 변환은 이미지 분석, 컴퓨터 비전, 디지털 이미지 프로세싱에 사용되는 특징 추출 기술이다. 이 기술의 목적은 투표 절차로 도형의 특정 클래스 내에있는 객체 의 불완전한 인스턴스를 찾는 것입니다.

이미징 라이브러리와 같은 OpenCV는 라이브러리에 대한 자바 래퍼 인 박스 (OpenCV-Java)에서 이러한 기능을 얻을 수 있어야합니다.

This 예를 들어 올바른 방향으로 알려야합니다.

출처

2013-10-18 05:27:25 npinti

: 그래픽 라이브러리를 사용하여 PDF 문서에서 사각형, 원, 사각형 및 선을 그렸습니다. 따라서 XML 문서를 생성하기 위해 해당 도면의 메타 데이터를 추출하고 싶습니다. –

자바를 사용하여 PDF 문서에서 정사각형, 직선, 선 등과 같은 그래픽 컴포넌트를 읽거나 추출하는 방법은 무엇입니까?

답변

관련 문제