텍스트 요소의 일부를 추출하여 다른 용도로 다시 사용해야하는 곳에 많은 양의 Xml이 제공되었습니다. (나는 XDocument를 사용하여 Xml 데이터를 가져오고있다).Xml에서 문자열 디코딩 문제를 해결합니다.
하지만 요소에 포함 된 텍스트를 어떻게 디코딩합니까? 여기에 사용 된 서식도 무엇입니까? 몇 가지 예 :
"What is the meaning of this® asks Sonny."
"The big centre cost 1¾ million pounds"
"... lost it. ® The next ..."
나는 HttpUtility.HtmlDecode
시도했지만 그 트릭을하지 않았다. 두 번 디코딩하면 "& reg;" 분명히 옳지 않은 ®로 변합니다.
모양은 & # 174와 유사합니다. 줄 바꿈. & 등록 번호; 아마도 물음표 일 것입니다. 1901, 나도 몰라. 아마도 점이나 쉼표일까요?
모든 아이디어를 환영합니다.
그런데 문제는 텍스트를 디코딩하면 결과가 이해가되지 않는다는 것입니다. 두 번 디코딩 할 때 ® 기호가 실제로는 물음표가되어야한다는 것이 분명 해집니다. – BlueVoodoo
그러나 결과를 살펴보면 이것이 작동하지 않는 유일한 결과 일 수 있습니다. 다른 것들에 대해 두 번 디코딩하는 것이 효과가있는 것 같습니다. 조금 더 테스트 해 보겠습니다. – BlueVoodoo
네, 그 밖의 모든 것들이 작동합니다. 이것을 답으로 받아 들여 그 심볼을 대체합니다. – BlueVoodoo