사용 사례가 매우 간단합니다. 나는 PDF 파일을 images.I로 변환해야합니다 아파치 PDF 파일을 사용하여 시도하고 스캔 한 이미지가 포함 된 PDF 파일을 변환하는 데 문제가 있습니다. 내가 스캔 한 이미지를 변환 할 때 이미지 선명도가 압축/스케일링으로 인해 손실됩니다. 그래서 PDF에서 이미지 데이터를 추출한 다음 저장하려고했습니다. 하지만 문제는 이미지와 텍스트를 포함하는 PDF 파일을 얻을 수 있으며 이미지 변환 모드로 폴백해야하는 경우입니다. 문제는 이미지 만있는 페이지/문서와 합성 데이터가있는 페이지/문서를 구별하는 방법입니다. 나는이 목적을 위해 ProcSet defenition을 사용할 수 있다고 생각했지만 PDF 사양에 따라 쓸모없고 신뢰할 수없는 것으로 표시되어있는 것처럼 보입니다. 다른 가능성은 해당 페이지에 연결된 모든 개체를 확인하고 이미지 이외의 내용이 있는지 확인하는 것입니다. 이 작업을 수행하는 더 쉬운 방법이 있으면 알려주십시오.PDFBox : 이미지로 변환 : 스캔 한 문서가 포함 된 PDF 변환시 품질 손실
0
A
답변
0
의도가 pdf로 변환하려면 ImageMagick을 사용하는 것이 좋습니다. ImageMagick을 사용하는 경우 이미지의 품질을 변경하는 많은 옵션이 있습니다. pdf를 이미지로 변환하는 것은 ImageMagick을 사용하여 매우 간단합니다.
관련 문제
- 1. pdfbox 문서가 암호화 된 오류입니다.
- 2. PDF 파일을 이미지로 변환
- 3. PDFBox - PDF/A 변환 중 여러 색상 프로파일 포함
- 4. geojson에서 topojson으로의 변환시 데이터 손실
- 5. 스캔 한 PDF 파일 회전
- 6. HTML로 이미지로 PDF 포함
- 7. android- 이미지로 PDF 변환
- 8. DynamicPDF 이미지 품질 손실
- 9. PDFBox : PDDocument로 문서 변환
- 10. UIImage에서 매트로 변환시 데이터 손실
- 11. PDFBox 0.7.3 변환 pdf에
- 12. PDFBox 동일한 이미지로 여러 페이지 문서 생성
- 13. 페이지 범위의 이미지로 PDF 변환
- 14. 어도비 플렉스의 이미지로 PDF 변환
- 15. 트웨인 스캔 출력 이미지로 intptr 변환
- 16. R에서 계수기에서 숫자로 변환시 데이터가 손실 됨
- 17. 이미지 품질 손실
- 18. 이미지 품질 손실 줄임
- 19. UIView의 손실 품질 이미지
- 20. 디지털 사진의 품질 손실
- 21. PDF Quartz 렌더링 품질
- 22. PDF 바이트 배열을 jpg 이미지로 변환 (Java 프로젝트)
- 23. pdfbox pdf로 이미지 바이트 변환 []
- 24. tesseract를 사용하여 스캔 한 PDF 파일을 .txt 파일로 변환
- 25. PDF 문서가 포함 된 웹보기, HTML5로 변환 된 플래시 파일 android
- 26. PDF 문서가 포함 된 실행 가능한 JAR 파일로 프로젝트 내보내기
- 27. DataGrid와 같은 모든 ASP.NET 컨트롤이 포함 된 PDF 문서가 있습니까?
- 28. 변환시 변환 문제가 발생했습니다.
- 29. DateTime 변환시 변환 실패
- 30. OCR을 사용하여 스캔 한 문서에서 PDF가 생성되었는지 검색 [pdfbox]
먼저 텍스트 추출을 시도해보십시오. 찾을 텍스트가 없으면 이미지 추출을 위해 이동하십시오. 페이지 당 정확히 하나의 이미지를 얻는다면 그것이 스캔 한 페이지 일 가능성이 있습니다. (불행히도 이것은 벡터 그래픽을 무시합니다) – mkl
@mkl 고마워요. 나는 내가 끝내는 것을 thats라고 생각한다. –