2013-03-21 1 views
0

사용 사례가 매우 간단합니다. 나는 PDF 파일을 images.I로 변환해야합니다 아파치 PDF 파일을 사용하여 시도하고 스캔 한 이미지가 포함 된 PDF 파일을 변환하는 데 문제가 있습니다. 내가 스캔 한 이미지를 변환 할 때 이미지 선명도가 압축/스케일링으로 인해 손실됩니다. 그래서 PDF에서 이미지 데이터를 추출한 다음 저장하려고했습니다. 하지만 문제는 이미지와 텍스트를 포함하는 PDF 파일을 얻을 수 있으며 이미지 변환 모드로 폴백해야하는 경우입니다. 문제는 이미지 만있는 페이지/문서와 합성 데이터가있는 페이지/문서를 구별하는 방법입니다. 나는이 목적을 위해 ProcSet defenition을 사용할 수 있다고 생각했지만 PDF 사양에 따라 쓸모없고 신뢰할 수없는 것으로 표시되어있는 것처럼 보입니다. 다른 가능성은 해당 페이지에 연결된 모든 개체를 확인하고 이미지 이외의 내용이 있는지 확인하는 것입니다. 이 작업을 수행하는 더 쉬운 방법이 있으면 알려주십시오.PDFBox : 이미지로 변환 : 스캔 한 문서가 포함 된 PDF 변환시 품질 손실

+0

먼저 텍스트 추출을 시도해보십시오. 찾을 텍스트가 없으면 이미지 추출을 위해 이동하십시오. 페이지 당 정확히 하나의 이미지를 얻는다면 그것이 스캔 한 페이지 일 가능성이 있습니다. (불행히도 이것은 벡터 그래픽을 무시합니다) – mkl

+0

@mkl 고마워요. 나는 내가 끝내는 것을 thats라고 생각한다. –

답변

0

의도가 pdf로 변환하려면 ImageMagick을 사용하는 것이 좋습니다. ImageMagick을 사용하는 경우 이미지의 품질을 변경하는 많은 옵션이 있습니다. pdf를 이미지로 변환하는 것은 ImageMagick을 사용하여 매우 간단합니다.

관련 문제