Xml에서 문자열 디코딩 문제를 해결합니다.

텍스트 요소의 일부를 추출하여 다른 용도로 다시 사용해야하는 곳에 많은 양의 Xml이 제공되었습니다. (나는 XDocument를 사용하여 Xml 데이터를 가져오고있다).Xml에서 문자열 디코딩 문제를 해결합니다.

하지만 요소에 포함 된 텍스트를 어떻게 디코딩합니까? 여기에 사용 된 서식도 무엇입니까? 몇 가지 예 :

"What is the meaning of this&amp;reg; asks Sonny." 
"The big centre cost 1&amp;#190; million pounds" 
"... lost it. &amp;#174; The next ..."

나는 HttpUtility.HtmlDecode 시도했지만 그 트릭을하지 않았다. 두 번 디코딩하면 "& reg;" 분명히 옳지 않은 ®로 변합니다.

모양은 & # 174와 유사합니다. 줄 바꿈. & 등록 번호; 아마도 물음표 일 것입니다. 1901, 나도 몰라. 아마도 점이나 쉼표일까요?

모든 아이디어를 환영합니다.

2012-04-06 BlueVoodoo

표시하는 문자열이 HTML로 인코딩 된 다음 XML로 인코딩되거나 다시 HTML로 인코딩 된 것처럼 보입니다. >® - - the ISO Latin-1 entities 당>® (등록 상표 기호) - &#174;

유사하게 &amp#190; 3/4 나타내는 분획으로 전환하는 것과 같은 방식으로 동작한다 그것은

는 &reg;가 정확한지이다.

2012-04-06 10:20:39

그런데 문제는 텍스트를 디코딩하면 결과가 이해가되지 않는다는 것입니다. 두 번 디코딩 할 때 ® 기호가 실제로는 물음표가되어야한다는 것이 분명 해집니다. – BlueVoodoo

그러나 결과를 살펴보면 이것이 작동하지 않는 유일한 결과 일 수 있습니다. 다른 것들에 대해 두 번 디코딩하는 것이 효과가있는 것 같습니다. 조금 더 테스트 해 보겠습니다. – BlueVoodoo

네, 그 밖의 모든 것들이 작동합니다. 이것을 답으로 받아 들여 그 심볼을 대체합니다. – BlueVoodoo

답변