2012-04-06 5 views
0

텍스트 요소의 일부를 추출하여 다른 용도로 다시 사용해야하는 곳에 많은 양의 Xml이 제공되었습니다. (나는 XDocument를 사용하여 Xml 데이터를 가져오고있다).Xml에서 문자열 디코딩 문제를 해결합니다.

하지만 요소에 포함 된 텍스트를 어떻게 디코딩합니까? 여기에 사용 된 서식도 무엇입니까? 몇 가지 예 :

"What is the meaning of this® asks Sonny." 
"The big centre cost 1¾ million pounds" 
"... lost it. ® The next ..." 

나는 HttpUtility.HtmlDecode 시도했지만 그 트릭을하지 않았다. 두 번 디코딩하면 "& reg;" 분명히 옳지 않은 ®로 변합니다.

모양은 & # 174와 유사합니다. 줄 바꿈. & 등록 번호; 아마도 물음표 일 것입니다. 1901, 나도 몰라. 아마도 점이나 쉼표일까요?

모든 아이디어를 환영합니다.

답변

0

표시하는 문자열이 HTML로 인코딩 된 다음 XML로 인코딩되거나 다시 HTML로 인코딩 된 것처럼 보입니다. >® - - the ISO Latin-1 entities 당>® (등록 상표 기호) - ®

유사하게 &amp#190; 3/4 나타내는 분획으로 전환하는 것과 같은 방식으로 동작한다 그것은

®가 정확한지이다.

+0

그런데 문제는 텍스트를 디코딩하면 결과가 이해가되지 않는다는 것입니다. 두 번 디코딩 할 때 ® 기호가 실제로는 물음표가되어야한다는 것이 분명 해집니다. – BlueVoodoo

+0

그러나 결과를 살펴보면 이것이 작동하지 않는 유일한 결과 일 수 있습니다. 다른 것들에 대해 두 번 디코딩하는 것이 효과가있는 것 같습니다. 조금 더 테스트 해 보겠습니다. – BlueVoodoo

+0

네, 그 밖의 모든 것들이 작동합니다. 이것을 답으로 받아 들여 그 심볼을 대체합니다. – BlueVoodoo

관련 문제