é
(예 : 급성) 문자가 포함 된 XML 문서를 읽었습니다. 문서가 UTF-8로 저장되었으며 이진 파일 판독기가있는 문자가 UTF-8임을 확인했습니다 (c3
+ a9
). 그러나 처리가 끝나면 문자는 3 바이트 뒤범벅이됩니다 (c3
+ 83
+ c2
).XmlDocument가 UTF-8 '전자 급성'문자를 잘못 읽습니다.
내 생각 엔 .NET이 문자를 UTF-16으로 변환하려고 시도했거나 (이것은 내 생각에 가장 잘 맞았습니다) 문자를 한 개의 1 바이트 문자와 한 개의 2 바이트 UTF-8 문자로 분할했습니다 .
XmlDocuments document = new XmlDocuments();
document.Load("z:\\source.xml");
가 어떻게이로드해야합니다
는이 같은 문서를로드하는거야? UTF-8로 인코딩 된 스트림을 통해 이것을 읽어야합니까?
내가 UTF-8로 자신을 선언한다로드하고있어 문서를 언급하는 것을 잊었다 [편집]
.
<?xml version="1.0" encoding="utf-8"?>
"처리 후"= ??? –
나는 아직도 문제가 무엇인지 알아 내려고하고있다. 가장 큰 의문은 UTF-8을 UTF-16 또는 다른 인코딩 문제로로드하는 문제인데 5.1 MB 문서에서 다른 문자가 변경되지 않았기 때문입니다. 그러나 나는 확실히 모른다. 예, "처리 후"- 전체 스크립트 실행이 끝난 후. – Andrew
* 어떻게 출력하고 있습니까?/문자를 확인하고 있습니까? – deceze