5

"높은 ascii"또는 "확장 된 ascii"문자를 기술적으로 정확하게 나타내는 방법은 무엇입니까? 나는 128-255의 범위를 의미하는 것이 아니라 0-127 범위를 넘어서는 모든 특성을 의미합니다."높은 ascii"문자에 대한 적절한 기술 용어는 무엇입니까?

악센트 부호가있는 문자라고도하며 때로는 "전국적"또는 영어가 아닌 문자라고도하지만 이러한 이름은 부정확하거나 가능한 문자의 하위 집합만을 포함합니다.

프로그래머가 즉시 인식 할 정확하고 정확한 용어는 무엇입니까? 비 기술적 인 청중과 대화 할 때 가장 좋은 영어 용어는 무엇일까요?

+1

간결하게하려고했지만 어쩌면 내가 왜 물었는지 설명해야했습니다. 저는 번역가입니다. 제 일은 소프트웨어 현지화입니다. 종종 (아직도!) 내 언어의 "국가", "확장 된"문자 만 디스플레이에 왜곡되는 버그가 발생합니다. 대개의 경우 잘못된 코드 페이지가 적용 되었기 때문입니다. 따라서 특정 문자를 지칭하는 용어가 필요하므로 가능한 경우 설명 문구에 의지하지 않아도됩니다. 제 청중은 영어가 항상 모국어가 아닌 프로그래머, 엔지니어 및 관리자입니다. –

답변

17

"비 ASCII 문자"

+1

부정에 의한 정의가 우리가 할 수있는 최선이라고 생각됩니다."유니 코드"를 추가하자마자 유니 코드가 아닌 컨텍스트에서는이 용어가 적용되지 않습니다. 저는 sgm의 "trans-ascii"에 대한 생각이 마음에 들었습니다. . –

-1

비 ASCII 유니 코드 문자입니다.

+1

올바르지 않습니다. 유니 코드는 처음 127 개 코드 포인트에 대해 하위 호환이 가능하다는 점을 제외하면 ASCII와는 아무런 관련이 없습니다. –

+0

그게 핵심입니다. ASCII에 상응하는 문자가없는 모든 유니 코드 문자. – Amok

+2

@Dervin : 127 이상의 값은 ASCII와 아무런 관련이 없습니다. –

0

"확장 ASCII"나는 "원래 0-127 넘어서 자"를 의미, 사용하려는 용어입니다.

유니 코드는 확장 ASCII 문자 집합 중 하나이며 상당히 큽니다.

UTF-8은 원래 ASCII와 역 호환되는 유니 코드 문자를 나타내는 방법입니다.

+0

실제로 "확장 ASCII"에는 0-127이 포함됩니다. 내 실수! –

+2

제 생각에 "확장 된 ascii"는 128-255만을 참조합니다. 그 범위에서 표현할 수없는 것은 실제로는 아스키가 아닙니다 :) –

+2

ASCII 표준의 확장과 혼동 될 수 있기 때문에 '확장 ASCII'라는 용어의 사용이 비판되었음을 위키 백과에서 주목하십시오. . – thomasrutter

0

"trans-ASCII", "supra-ASCII", "ultra-ASCII"등과 같은 용어를 사용할 수 있습니다. 실제로 "meta-ASCII"는 메타 비트를 암시하기 때문에 더 좋을 것입니다.

+0

저는 "trans-ascii"를 좋아합니다. 나는 그 아이디어를 정확하게 표현했다고 생각합니다.하지만 개념을 전달하기 위해 주로 좋은 용어를 찾고 있습니다. 자체 제작 된 용어를 사용하는 것은 불가능합니다. –

2

127 이상의 ASCII 문자 코드는 정의되지 않습니다. 많은 장비와 소프트웨어 공급 업체가 128-255 값을 위해 자체 문자 세트를 개발했습니다. 일부는 그림 기호를 선택하고, 다른 하나는 악센트 문자를 선택하고, 다른 하나는 다른 문자를 선택합니다.

유니 코드는 대부분의 언어에서 사용되는 문자를 포함하는 범용 문자 집합을 만들기위한 시도입니다. 여기에는 전통적인 서양 알파벳뿐만 아니라 키릴 문자, 아랍어, 그리스어, 심지어 중국어, 일본어 및 한국어 문자뿐만 아니라 현대와 고대의 다양한 언어가 포함됩니다.

유니 코드의 구현이 몇 가지 있습니다. 가장 인기있는 UTF-8 중 하나입니다. 그 인기의 주된 이유는 ASCII와 하위 호환이 가능하기 때문입니다. 문자 코드 0에서 127까지는 ASCII와 UTF-8에서 동일합니다.

즉, ASCII는 UTF-8의 하위 집합이라고 말하는 것이 좋습니다. 문자 코드 128 이상은 ASCII가 아닙니다. UTF-8 (또는 다른 유니 코드) 일 수도 있고 하드웨어 또는 소프트웨어 공급 업체가 사용자 정의 구현을 할 수도 있습니다.

+4

UTF는 유니 코드의 "구현"이 아닙니다. 그들은 유니 코드 텍스트를 바이트 태그로 인코딩합니다. 유니 코드 텍스트는 일련의 숫자 (* int * 또는 long *, * numbers *가 아닌)로 표현되며, UTF는 각 숫자를 하나 이상의 바이트 시퀀스로 변환하는 방법입니다. – yfeldblum

+0

짐, 고맙습니다. 그러나 나는 그 사람들이 어느 정도인지 잘 알고 있습니다. 나는 정확한 이름만을 찾고있었습니다. –

0

"하이 ASCII"라고 말하면 정의 상으로는 128-255 십진수입니다. ASCII 자체는 1 바이트 (실제로 7 비트) 문자 표현으로 정의됩니다. 영어 이외의 문자를 허용하기 위해 상위 비트를 사용하면 나중에 특정 값으로 표시된 특정 문자를 정의한 코드 페이지가 생깁니다. 모든 멀티 바이트 (> 255 십진수 값)는 ASCII가 아닙니다.

0

ASCII 문자를 나타내지 않는 비트 시퀀스는 확실히 유니 코드 문자가 아닙니다.

사용중인 문자 인코딩에 따라, 수 중 하나

  • 잘못된 비트 순서
  • 유니 코드 문자
  • 는 ISO-8859-X 문자
  • 마이크로 소프트 1252 문자
  • 다른 문자 인코딩의 문자
  • 버그, 이진 데이터 등
  • 이러한 모든 상황에 딱 맞는

한 정의는 다음과 같습니다

  • 하지 ASCII 문자

이 매우 현학적도 "비 ASCII 문자"으로하고자하지 정확하게 이 범위를 벗어나는 비트 시퀀스는 문자가 아닌 잘못된 비트 시퀀스 일 수 있기 때문에 이러한 모든 상황에 적합해야합니다.

0

온라인 리소스 (Cool website though)에서 작성한 단어는 유용하고 적절하고 작성하고 답변하기 때문에 사용했습니다.

처음에는 대문자와 숫자 만 포함되었지만 1967 년에는 소문자와 일부 제어 문자가 추가되어 US-ASCII라고하는 문자가 0에서 127 사이에 추가되었습니다. 따라서이 128 개 세트 문자는 1967 년에 표준으로 출판되었으며 영어로 작성해야하는 모든 내용이 포함되어 있습니다.

1981 년 IBM은 "코드 페이지 437"이라는 8 비트 ASCII 코드의 확장을 개발했는데,이 버전에서 그래픽 문자에 대한 쓸모없는 제어 문자가 대체되었습니다. 또한 새로운 기호, 기호, 그래픽 및 라틴 문자, 스페인어와 같은 다른 언어로 텍스트를 작성하는 데 필요한 모든 문장 부호 및 문자가 포함 된 128자를 추가했습니다. 이 방법으로 128에서 255까지의 ASCII 문자를 추가했습니다.

IBM은 첫 번째 개인용 컴퓨터로 간주되는 "IBM-PC"라는 모델 5150 하드웨어에서이 코드 페이지에 대한 지원을 포함합니다. 이 모델의 운영 체제 인 "MS-DOS"도이 확장 ASCII 코드를 사용했습니다.

관련 문제