누구나 OCR 라이브러리와 Java를 사용하여 PDF에서 텍스트를 추출하려고 했습니까? 텍스트 추출을 위해 가장 신뢰할만한 라이브러리는 무엇입니까? 필자가 보았던 대부분의 접근법 (tesseract, GOCR)은 C 라이브러리로, 일부 JNI 코드가 작성되어야합니다.PDF OCR을 사용한 텍스트 추출 접근법
저는 현재 버전 0.8.x에서 Apache 인큐베이터 프로젝트 인 pdfbox에 익숙하지만 텍스트 추출이 항상 정확한 것은 아닙니다. 좀 더 신뢰할 수있는 대체 접근법을 찾고 있습니다.
아직까지도 Asprise JavaPDF를 시도하지는 않았지만 시도 중 이었지만 가능하면 OCR 접근 방식에 대해 더 알고 싶었습니다.
도움을 주시면 감사하겠습니다.
구조화 된 PDF를 사용하고 있습니까? 만약 당신이 자바에서 PDF 메타 데이터의 텍스트를 잡아 능력을 가지고. – northpole
아니요, 일부 PDF가 구조화되어 있지 않습니다. – Jon