2010-08-19 4 views

답변

4

나는 unicode.org 제안한 소문자로 유니 코드 문자를 변환 표준 알고리즘 을 알고 싶어요.

기본 알고리즘은 각 문자의 소문자를 연결하는 것입니다 (마지막 두 번째 열에서 정의한대로 UnicodeData.txt). 조건부 매핑 (단어의 끝에는 Σ → ς, 그렇지 않으면 σ)과 언어에 민감한 규칙 (예 : 쉼표와 같은)은 여러 문자 매핑을 처리하기 위해 special rules입니다. 터키어 dotless ı).

대부분의 프로그래밍 언어 도이 제안 된 표준을 따르십니까?

자바 않습니다. 파이썬은 기본 규칙을 구현하지만 특별한 규칙은 구현하지 않습니다. 그리고 C에는 표준화 된 유니 코드 지원이 전혀 없습니다.

+0

JavaScript는 어떻습니까? 표준을 따르고 있습니까? – Albert

+1

JavaScript는 기본 대소 문자 규칙을 구현하지만 특수 대문자 규칙은 구현하지 않습니다. – dan04

+1

좋은 정보입니다. 감사! – Albert

1

프로그래밍 언어는 유니 코드를 얼마나 잘 지원하는지에 따라 다릅니다. 대부분 유니 코드 문자는 기본 제공 형식이 아닙니다. 일반적으로 라이브러리에서 처리되거나 OS 호출에 의해 처리됩니다.

예를 들어, C++에는 고유 한 유니 코드 문자 유형이 없지만 stl (언어의 일부로 정의 됨)에 로케일 지원이 있습니다. Ada에는 네이티브 유형 Wide_Character와이를 조작하기위한 라이브러리 지원이 있습니다.

+0

"대부분 유니 코드 문자가 기본 제공 유형으로되어 있지 않습니다."더 현대적인 언어에서는 더 이상 맞지 않습니다. –

+2

아마도 "오래된"언어 (예 : The C family)의 상당수가 여전히 많이 사용되고 있습니다. 많은 "현대 언어"가 사용하는 것보다 더 많은 언론을 얻습니다. 네이티브 유니 코드 지원이 중요한 경우에도 사용할 수 있습니다. –

+0

정보 주셔서 감사합니다! – Albert

2

.NET에는 유니 코드 지원이 있으며 대소 문자를 전환하는 기본 제공 기능을 제공합니다. 이것은 다른 언어에서도 마찬가지입니다.

+1

.NET은 언어가 아닙니다. – mickeyf

+0

.NET은 언어가 아닌 플랫폼입니다. Win32는 유니 코드를 지원합니다. –

+3

그러나 .NET Framework를 사용하는 모든 언어 (C#, VB.NET, F # 등)에 적용됩니다. – Russ

관련 문제