1
우리는 손으로 쓴 문서 였고 스캐너를 사용하여 pdf로 변환했습니다. 나는 TIKA 1.13을 사용하고 있지만 텍스트 형식의 파일을 추출 할 수는 없습니다. 구문 분석을 한 후에 텍스트로 "\ n \ n"만 얻습니다. 여기 내 코드는 다음과 같습니다.TIKA를 사용하여 텍스트를 추출 할 수 없습니다
Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);
아무도 도와 줄 수 있습니까?
'손으로 쓴 문서이고 pdf로 변환되었으므로 PDF는 이미지입니다. PDF에 텍스트가 없습니다. OCR 도구를 사용하여 이미지를 텍스트로 변환하거나 스캐너에서 텍스트를 추출하지 않을 수 있습니다. – PeterMmm
TIKA는 기본적으로 이미지 인 이러한 pdf에서 텍스트를 추출 할 수 있습니까? –
[OCR 지원을 활성화하는 방법에 대한 Apache Tika 설명서를 따르십시오.] (http://wiki.apache.org/tika/TikaOCR)를 시도 했습니까? – Gagravarr