iText를 사용합니다. 5.3.3iText 추출 "?" "fi"대신
나는 pdf 파일에서 텍스트를 추출하려고합니다.
는 그 같은 것을 사용
File f (....)
FileInputStream fis = new FileInputStream(f);
r = new PdfReader(fis);
String s=PdfTextExtractor.getTextFromPage(r, 1);
System.out.print(s);
나는이 얻을 :
"(...) 역사에서 처음 치명적인 사고 (에 의한 위기에 싱가포르 항공 ...) "
텍스트:
"(...) 역사에서 최초의 치명적인 사고로 인한 위기 (...) "
0 싱가포르 항공나 : 텍스트
"? (...) 국내 사업자와 최종 결론에 대한 필요성 (...) 제안" "을 (...) 전국 사업자와 최종 결론은 필요성에 대한 제안 (...) "
내가 보는 바와 같이"? " "fi"의 insted.
는 그의 대답에 지적, 특정 문자 조합에 사용되는 합자 글리프가 있습니다. 이 글리프에 대한 유니 코드에 대한 적절한 매핑이있는 경우, 유니 코드는 분리 된 문자가 아닌 해당 합자를 선택합니다. 콘솔 글꼴은 그 문자를 알지 못하기 때문에 "?"가 표시됩니다. 반면에 유니 코드 문자에 대한 적절한 매핑이 없다면 텍스트 추출 루틴이 손실되고 "?"문자가 포함될 수 있습니다. 캐릭터. 분석을 위해 문서를 제공하십시오. – mkl