2016-09-16 2 views
1

우리는 손으로 쓴 문서 였고 스캐너를 사용하여 pdf로 변환했습니다. 나는 TIKA 1.13을 사용하고 있지만 텍스트 형식의 파일을 추출 할 수는 없습니다. 구문 분석을 한 후에 텍스트로 "\ n \ n"만 얻습니다. 여기 내 코드는 다음과 같습니다.TIKA를 사용하여 텍스트를 추출 할 수 없습니다

Parser parser = new AutoDetectParser(); 
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); 
PDFParserConfig pdfConfig = new PDFParserConfig(); 
pdfConfig.setExtractInlineImages(true); 
ParseContext parseContext = new ParseContext(); 
parseContext.set(PDFParserConfig.class, pdfConfig); 
parseContext.set(Parser.class, parser); 
Metadata metadata = new Metadata(); 
parser.parse(stream, handler, metadata, parseContext); 

아무도 도와 줄 수 있습니까?

+0

'손으로 쓴 문서이고 pdf로 변환되었으므로 PDF는 이미지입니다. PDF에 텍스트가 없습니다. OCR 도구를 사용하여 이미지를 텍스트로 변환하거나 스캐너에서 텍스트를 추출하지 않을 수 있습니다. – PeterMmm

+0

TIKA는 기본적으로 이미지 인 이러한 pdf에서 텍스트를 추출 할 수 있습니까? –

+1

[OCR 지원을 활성화하는 방법에 대한 Apache Tika 설명서를 따르십시오.] (http://wiki.apache.org/tika/TikaOCR)를 시도 했습니까? – Gagravarr

답변

0

PDF는 두 가지 기본 맛이 있습니다. 내가 순수 pdf라고 부르는 것에서 텍스트는 HTML 태깅, 단어 마크 업 등과 같은 기능을하는 마크 업 언어에 내장되어 있습니다.이 유형의 pdf에서 텍스트를 복구 할 수 있습니다. 다른 유형은 pdf로 워드 문서를 저장할 때 얻을 수있는 유형입니다. 원본 문서의 각 페이지는 이미지로 변환 된 다음 이미지는 페이징을 지원하는 pdf 프레임 워크에 포함됩니다. 이 시간을 추출하면 이미지 모음을 얻을 수 있습니다. 이것들은 OCR 처리에 적합 할 수도 그렇지 않을 수도 있습니다.

관련 문제