2012-01-09 2 views
2

나는 GB2312 문자 집합 페이지 구문 분석 JSoup을 사용하고 있습니다 : http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.htmljsoup 출력 인코딩 문제

소스 코드 :

1:? 2:� 3:� 4:— 

내가 원하는 :

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html"; 
Document doc=Jsoup.connect(testURL).get();   
System.out.println(
    doc.select("div").html() 
); 

이 다음과 같은 출력을 제공을 페이지 소스 코드와 동일 해 짐 :

1:· 2:慒 3:啰 4:— 
,

이 작업을 수행 할 수있는 방법이 있습니까?

답변

1

doc.outputSettings().escapeMode(EscapeMode.xhtml)을 설정하거나 인쇄하기 전에 출력 charset을 변경해보십시오.

도 참조하십시오. documentation for EscapeMode.

+0

도움을 주셔서 감사합니다. 다른 문자셋 인'EscapeMode.xhtml'와'prettyPrint (false)'를 시도했지만, 결과는 같습니다. – Koerr

+0

@Zenofo : bummer = 시도, 이것은 다른 답변의 품질을 향상시킬 수 있습니다. – maerics

+0

감사합니다 @maerics,이 미안 해요 :) – Koerr