2017-02-07 1 views
0

저는 단순한 파일 형식을 설계하고 있으며 확장 된 US ASCII 만 지원하는 대신 UTF8을 지원할 생각이었습니다.라인 피드 (16 진수 0x0A)를 UTF8에 적법하게 삽입 할 수 있습니까?

줄 바꿈 바이트 (16 진수 0x0A)는 구분 기호 중 하나입니다. 이 바이트 시퀀스가 ​​다중 바이트 UTF8 시퀀스에 포함될 수 있습니까? 예를 들어, 초기 바이트 중 하나에 높은 비트가 설정되어 (멀티 바이트 문자를 나타냄) 후행 바이트 중 하나가 0x0A입니까?

+2

아니요, UTF-8의 멀티 바이트 시퀀스의 모든 바이트의 상위 비트가 설정되어 있습니다. – yeputons

답변

4

UTF-8 사양을 확인하십시오. 값이 < = 0x7F 인 모든 바이트는 해당 코드 포인트로 처리됩니다. 멀티 바이트 시퀀스의 모든 바이트에는 상위 비트가 설정됩니다.