iText.But을 사용하여 생성 된 PDF 문서에서 모든 데이터 (정사각형, 직선, 선 등)를 추출하려고하는데 텍스트와 이미지가 아닌 내용을 추출 할 수 없습니다. 추출하고 싶습니다. 그래픽 구성 요소.자바를 사용하여 PDF 문서에서 정사각형, 직선, 선 등과 같은 그래픽 컴포넌트를 읽거나 추출하는 방법은 무엇입니까?
2
A
답변
2
여기에는 3 가지 옵션이 있습니다 (적어도 그 중 하나는 내가 찾을 수있는 옵션 임). 정확히 무엇을 가지고 있는지 모르겠으므로 모든 3을 붙여 넣습니다.이 숫자는 어려움이 증가하는 단계입니다.
첫 번째 옵션 : 당신은 너무 같은 것을 할 수있는 : 다음 here을 표시되는 내용의 라인을 따라 뭔가를 사용하여, (HTML로 PDF 문서를 변환 할 수 here)
PDDocument document = null;
document = PDDocument.load(inFile);
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator();
while (iter.hasNext()) {
PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map pageImages = resources.getImages();
if (pageImages != null) {
Iterator imageIter = pageImages.keySet().iterator();
while (imageIter.hasNext()) {
String key = (String) imageIter.next();
PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
image.write2OutputStream(/* some output stream */);
}
}
}
두 번째 옵션에서 촬영을하고, 사용 JSoup
을 사용하여 HTML을 처리하고 img
태그를 반복합니다. 나는 인데, 이미지가 렌더링 될 것이라고 가정합니다..
또는, Hough Transform
을 살펴 수 :
허프 변환은 이미지 분석, 컴퓨터 비전, 디지털 이미지 프로세싱에 사용되는 특징 추출 기술이다. 이 기술의 목적은 투표 절차로 도형의 특정 클래스 내에있는 객체 의 불완전한 인스턴스를 찾는 것입니다.
이미징 라이브러리와 같은 OpenCV
는 라이브러리에 대한 자바 래퍼 인 박스 (OpenCV-Java
)에서 이러한 기능을 얻을 수 있어야합니다.
This 예를 들어 올바른 방향으로 알려야합니다.
관련 문제
- 1. PDF 문서에서 텍스트를 추출하는 방법
- 2. AutoCAD에서 작성된 DXF에서 컴포넌트를 추출하는 방법은 무엇입니까?
- 3. 특정 직사각형 영역 내의 PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?
- 4. 그래픽 파일을 사용하여 어떻게 Delphi 컴포넌트를 스킨합니까?
- 5. PDF, 암호, 서명 등과 같은 사용자 권한 읽기?
- 6. gwt를 사용하여 주어진 URL 문서에서 콘텐츠를 추출하는 방법은 무엇입니까?
- 7. JavaScript를 사용하여 Word 문서에서 이미지를 추출하는 방법은 무엇입니까?
- 8. java의 그래픽 클래스로 직선 그리기
- 9. 자바를 사용하여 웹 사이트에서 데이터를 추출하는 방법은 무엇입니까?
- 10. 자바를 사용하여 zip 파일을 추출하는 가장 좋은 방법은 무엇입니까
- 11. VBA를 사용하여 MS-Word 문서에서 특정 테이블을 추출하는 방법은 무엇입니까?
- 12. PHP를 사용하여 HTML 문서에서 특정 태그 만 추출하는 방법은 무엇입니까?
- 13. PDF/PS를 직선 부분으로 변환
- 14. 스크립트를 사용하여 PDF 문서에서 텍스트 가져 오기
- 15. 자바를 사용하여 pdf 파일에 자동 증가 기능을 설정하는 방법은 무엇입니까?
- 16. 파이썬에서 PDF 파일의 텍스트를 추출하는 방법은 무엇입니까?
- 17. Kivy : 선 그래픽 편집
- 18. 추출하는 방법을 선
- 19. 자바를 사용하여 bson 문서에서 DDObject를 변환하십시오.
- 20. multipart/form-data의 내용을 읽거나 추출하는 방법은 무엇입니까?
- 21. NLP와 python을 사용하여 문서에서 이름이나 DOB와 같은 특정 콘텐츠를 추출하는 방법은 무엇입니까?
- 22. JPedal을 사용하여 pdf 파일에서 데이터를 추출하는 방법은 무엇입니까?
- 23. 객관적인 C에서 특정 직사각형 영역 내의 PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?
- 24. 자바를 사용하여 jsoup에서 이미지 URL을 추출하는 방법
- 25. 자바를 사용하여 비표준 텍스트에서 JSON을 추출하는 방법
- 26. 자바를 사용하는 그래픽 워크 플로우
- 27. 검색과 안드로이드에서 PDF 문서에서 텍스트를 추출
- 28. Word 문서에서 RTF/HTML 텍스트를 추출하는 방법은 무엇입니까?
- 29. Javascript를 사용하여 XML 문서에서 값을 추출하는 방법
- 30. Word 문서에서 MySQL 테이블로 데이터를 추출하는 방법은 무엇입니까?
: 그래픽 라이브러리를 사용하여 PDF 문서에서 사각형, 원, 사각형 및 선을 그렸습니다. 따라서 XML 문서를 생성하기 위해 해당 도면의 메타 데이터를 추출하고 싶습니다. –