2009-11-18 6 views
1

나는 묻고 싶은 것이 꽤 간단합니다. 웹 브라우저 컨트롤에서 호스팅되는 HTML 문서가 있습니다.한국어 텍스트를 유니 코드로 변환

이제 MSHTML 범위 속성을 사용하여 한국어 단어를 선택하면 range.htmlTextrange.Text을 얻을 수 있습니다. 둘 다 한국어 단어를 보여줍니다. 내가 원하는 것은 유니 코드 형식으로 변환하는 것뿐입니다.

가능합니까?

참고 :이 모든 것은 C# WinForms를 사용하여 수행하고 있습니다.

답변

1

좀 더 자세한 정보를 제공해 주실 수 있습니까? 당신이 그것을 읽을 때 "한국어 단어"는 어떤 형식입니까? (HTML 문서 헤더와 같은 것으로 가정합니다.) 읽으려는 샘플 HTML 페이지를 게시 할 수 있습니까?

단순히 문제가되는 문자열이 다른 코드 페이지에있는 경우 .Net의 Encoding 클래스를 사용하여 변환 할 수 있습니다. 예를 들어, 아마도 iso-2022-kr에 텍스트가있을 것입니다. 아래 코드에서 "stringInKoreanIsoEncoding"이라는 문자열을 변환하는 샘플이 있습니다.

Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr 
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding)); 
string utf8String = Encoding.UTF8.GetString(convertedToUtf8); 
관련 문제