2012-07-09 2 views
1

가능한 중복 :
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?자바 정규식 변환

나는이 형식이 경우 &#039

으로 인코딩 된 일부 특수 문자가 포함 된 문자열 데이터를 인코딩은 '기호가 , 작은 따옴표.

예를 들어 "the citizen&#039s home""the citizen's home"처럼 표시되어야하지만 그렇지 않습니다.

불행하게도이 같은 해석되지 않으며,

먼저 나는이 일을 위해 내 문자열의 모든 구문 분석하고 변환해야합니다라고하는 형식이 무엇인지,이 날 도움이 될 것입니다 변환 방법

을 찾을 수

second : 내 문자열을 수정하는 방법을 알고 있습니까?

+1

이 형식은 HTML 엔터티 (십진수)라고합니다. –

답변

3

바퀴를 재발 명할 필요가 없습니다. Apache Commons Lang의 StringEscapeUtils.unescapeHtml4(String)은 원하는 것입니다.

문자열 함유 엔티티가 탈출에 대응 실제 유니 코드 문자를 포함하는 문자열을 이스케이프 탈출. HTML 4.0 엔티티 인 을 지원합니다.

예를 들어, 문자열 "&lt;Fran&ccedil;ais&gt;"는 기업이 인식 할 수없는 경우 "<Français>"

, 그것은 혼자, 그 결과를 문자열로 그대로 삽입 될 것입니다. 예 : "&gt;&zzzz;x"">&zzzz;x"이됩니다.