2017-03-27 1 views
0

필자가 이해하는 한 문자 인코딩은 비트를 정수로 매핑하고 문자 집합은 정수를 문자에 매핑합니다.ASCII를 존중하지 않는 문자 집합이 있습니까?

그래서 유니 코드 문자 집합에는 전화 문자가 있습니다. 정수 9742를 사용하여 표현되며, 일반적으로 16 진수를 사용하여 260E로 표시됩니다. 그런 다음 정수 9742를 10011000001110으로 변환하는 UTF-8을 사용하여 파일에 저장됩니다. 잘못하면 수정하십시오.

어제 유니 코드 문자 세트와 UTF-8 인코딩을 사용하는 텍스트 파일을 만들어서 내 데스크톱에 저장했습니다. 필자는 텍스트 편집기에서 파일을 다시 열고 재미있는 문자 세트를 수동으로 전환하기 시작했습니다. 놀랍게도 문제가 있고 이상한 문자가 표시되기 시작했습니다! 나는 문자의 일부만이 잘못 설명되었음을 알았다. 이것은 나를 생각하게 만들었는데, 왜 캐릭터의 일부만 깨는 것입니까? 왜 모두가 아닌가?

누군가가 원래의 ASCII 사양을 벗어나는 문자라고했습니다. 반성하자면, 이것은 비 미국 문자 만 깨기 때문에 의미가있는 것처럼 보였습니다. 나는 모든 문자 세트가 ASCII 문자를 첫 128 문자까지 사용하기 때문에 끊어지지 않고 남아있는 127 문자 이상의 문자라고 들었다. 내가 틀렸다면 나를 바로 잡아주세요.

마지막으로 생각했습니다. ASCII를 존중하지 않는 문자 집합이 있습니까? 그렇다면 무엇을 부르며 무엇을 위해 사용합니까?

+2

처음에는 UTF-16으로, 각 BMP 코드 포인트는 2 바이트가 아니라 1 바이트입니다. 그렇다면 EBCDIC ... –

+1

Google "EBCDIC". –

+1

[Baudot and ITA2] (https://en.wikipedia.org/wiki/Baudot_code)도 참조하십시오. –

답변

0

내 의견에 따르면 나는 내 자신의 질문에 대답 할 수 있습니다. 해설 한 모든 분들께 감사드립니다!

예, 몇 가지가 있습니다. EBCDICBaudot.

+0

EBCDIC가 최근에있었습니다. IBM 메인 프레임 파일을 다룰 필요가 없기 때문에 기쁩니다. :) Btw, 대답은 무엇입니까? 많은 문자 집합은 낮은 바이트 범위에서 ascii 호환성을 "허용"하는 것으로 보입니다. 당신의 대답은이 시점에서 만졌습니까? 파일 헤더는 어떻습니까? 다른 것을 공유 할 수 있습니까? – vikingsteve

관련 문제