2011-06-14 6 views
8

UTF8 코드 페이지 내에서 자국어 문자를 동등한 라틴 문자로 변환 할 수있는 관계 또는 기존 알고리즘이 있는지 궁금합니다. >를언어 특정 문자를 UTF8의 라틴 문자로 변환 할 수 있습니까?

Ó - -> O

Z -> Z

, ► -> Z ...

A : (폴란드어) 예

구처럼 : 'zażółć gęślą jażń'

로 변환 : 'zazolc gesla jazn'

현재 폴란드어 용 변환 배열을 사용하고 있지만 모든 라틴 기반 언어를 처리하는 보편적 인 솔루션을 찾고 있습니다.

감사

+0

업데이트 : .NET 응용 프로그램 내에서 수행하고 문자열 변수로 작업해야합니다. 이것은 일방 변환이므로 Pooli가 제안한대로 추가 정보를 저장할 필요가 없습니다. 감사. – tomekole

+2

먼저 악센트를 제거해야하는지 확인하십시오. 진짜 '동등한'라틴 문자는 없으며 항상 이런 식으로 정보를 잃어 버리게됩니다. 하지만 그렇게하면 iconv 라이브러리 나 유니 코드 분해와 같은 몇 가지 방법이 있습니다. – schlenk

+0

감사합니다. schlenk. 유니 코드 분해가 정확히 필요한 것 같습니다. – tomekole

답변

0

, 이것은 당신이 필요합니다 확실한 대답이 것을 완전히 확실하지하지만 때 내가의 iconv라는 과거에이 작업을해야했기 때문에 모든 '특수'문자를 명명 된 또는 숫자로 변환하여 변환 프로세스 중에 보호됩니다.

1

'Unicode decomposition + C#'은 응답을 완료하기 위해 바로 사용할 수있는 솔루션을 제공하는이 CodeProject 기사 (codeproject.com/KB/cs/UnicodeNormalization.aspx?display=Print)로 안내했습니다. 당신이 찾고있는 것을 지명하는 능력은 과소 평가 될 수 없습니다;) 모든 해답을 가져 주셔서 감사합니다.

관련 문제