2013-01-31 2 views
0

pdf에서 이미지와 텍스트를 추출하는 데 pdfbox를 사용하고 있습니다. 나는 텍스트 추출을 위해 다음과 같은 코드를 가지고있다 :pdfbox를 사용하면 텍스트를 추출 할 수있는 이유는 무엇입니까?

PDFTextStripper p = new PDFTextStripper(); 
String thistext=p.getText(document); 

어떤 것이 제대로 텍스트를 추출한다. 그러나 ExtractImages 클래스를 사용하여 동일한 pdf에서 이미지를 추출하려고하면 실제 이미지가 아닌 pdf의 모든 페이지가 생성됩니다. 그 이유는 pdf가 스캔 된 사본 일 수 있기 때문입니까? 그것이 사실이라면, 어떻게 텍스트가 추출 될까요?

답변

1

나는 그것이 스캔된다는 사실이 당신의 문제라고 믿습니다. 스캔 한 PDF가 텍스트를 감지하고 강조 표시 할 수있는 것을 보았지만 여전히 이미지입니다. 이 가설을 테스트하기 위해 this one과 같은 잘 알려진 PDF를 사용해 보겠습니다.

+0

답장을 보내 주셔서 감사합니다. 예, 다른 pdfs로 테스트 해 보았습니다. 스캔 한 문서에서 텍스트 인식에 대해 혼란스러워했습니다. – rivu

관련 문제