0
이 pdf에서 이미지와 텍스트를 추출하는 데 pdfbox를 사용하고 있습니다. 나는 텍스트 추출을 위해 다음과 같은 코드를 가지고있다 :pdfbox를 사용하면 텍스트를 추출 할 수있는 이유는 무엇입니까?
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
어떤 것이 제대로 텍스트를 추출한다. 그러나 ExtractImages
클래스를 사용하여 동일한 pdf에서 이미지를 추출하려고하면 실제 이미지가 아닌 pdf의 모든 페이지가 생성됩니다. 그 이유는 pdf가 스캔 된 사본 일 수 있기 때문입니까? 그것이 사실이라면, 어떻게 텍스트가 추출 될까요?
답장을 보내 주셔서 감사합니다. 예, 다른 pdfs로 테스트 해 보았습니다. 스캔 한 문서에서 텍스트 인식에 대해 혼란스러워했습니다. – rivu