pdf에서 텍스트를 추출하여 json 파일에 쓰려고합니다. 유니 코드 문자를 추출하는 동안 Json은 모두 &을 \ u0026으로 변환합니다. 예를 들어 내 실제 문자열은 ش
입니다. (ش을 나타냄). .txt 파일, 콘솔 등으로 올바르게 인쇄됩니다. 그러나이 문자열을 Json 파일에 인쇄하려고 시도하면 \u0026#1588;
이 표시됩니다.Json이 문자열을 u0026으로 변환합니다.
나는 자바를 사용하고, 그리고 코드는
Gson gson = new Gson();
String json = gson.toJson(pdfDoc);
주 : pdfDoc
입력 PDF 문서 내의 문자의 모든 세부 사항 (위치, 색상, 글꼴 등등)를 포함하는 개체입니다. gson-2.2.1.jar
을 사용하고 있습니다.
감사합니다. 그것은 효과가 있었다. 코드를 Gson gson = new GsonBuilder()로 변경했습니다. disableHtmlEscaping(). create(); – Neeraj