2012-09-25 1 views
3

Apache PDFBox 및 Java를 사용하여 PDF를 파싱하고 PDF에서 모든 정보를 가져옵니다. 텍스트를 추출하는 것은 영어로만 잘 작동합니다. 다른 언어의 경우 일부 특수 문자 만 표시됩니다. 예를 들어, 아라비아 문자 ش를 추출하면 문자열이 "?"로 인쇄됩니다. 컴퓨터의 "지역 및 언어"를 영어에서 아랍어로 변경할 때 문제가 없습니다. 문자의 유니 코드를 추출하면이 문제를 해결할 수 있다고 생각합니다. 문제.이 문제를 해결하기 위해 PDF에서 문자의 유니 코드를 얻거나 좀 솔루션을 제안 제발 도와주세요.java 및 PDFBox를 사용하여 PDF에서 유니 코드 문자를 가져 오는 방법

답변

2

changing the Java system locale를 사용해보십시오. 자바 프로그램에서, 이것은 OS 설정을 변경하는 것과해야한다.

+0

@ ED Staub 답변을 찾았습니다. 한번 봐주세요 – Neeraj

관련 문제