2012-03-12 1 views
1

나는 약간의 뉴스 rss를 가지고있다. 그러나 내용은 "x26 # 39;"와 같은 약간의 텍스트를 가지고있다. 그것은 사실 ""이다. 자바로 해독하고 싶다."x26 # 39;"를 디코딩하는 방법 자바로

StringEscapeUtils.escapeHtml4를 시도했지만 작동하지 않습니다.

+7

텍스트가 손상된 것 같습니다. 'x26'은 아마도'\ x26'이어야하고 프로그래밍 언어가 RSS를 생성 했더라면'&'를 나타낼 것입니다. '''는 HTML에 따라'''를 표현합니다. RSS가 손상되었다는 것과 RSS를 파싱 할 수있는 방법이 없다는 것을 제외하고는 RSS가 손상되었다는 것을 소스에 알려주고 수정해야 할 필요가 있다는 것을 제외하면 RSS가 손상되었다는 것입니다. –

+2

네, 그게 실제로 당신이 가진 것이면, 그것은 어떤 언어로도 유효하지 않습니다. –

+0

원본 RSS 데이터가 변경되지 않으면 문자열 #을 사용하여 XML을 정리할 수 있습니다. – anubhava

답변

1

코멘트 작성자의 말처럼 입력이 손상되었습니다. 그러나 해결 방법을 사용할 수 있습니다. :-)

String rssInput = "These are the best news from FooBar x26#39; Top news"; 
String output = rssInput.replaceAll("x26#39;", "’");