2016-08-10 1 views
0

이미지의 파일 속성, 특히 카메라/스캐너/adobe/등으로 만든 jpg 파일에서 파고입니다."odd"유니 코드 코드 포인트가있는 이미지 특성 "dimensions"

나머지 부분과는 다른 하나의 세부 사항이 있습니다. 이미지 크기에는 표시된 텍스트에 나타나지 않는 유니 코드 코드 포인트가있는 것 같습니다. 텍스트는 다음과 같이 표시됩니다 : ‪3264 x 2448.

이 문자열의 양쪽 끝에 코드 포인트가 있습니다. 알아낼 수없는 코드 포인트가 있습니다. 그것은 아마 아주 솔직하게 앞으로 나올 것입니다.

속성 문서

는 여기에서 찾을 수 있습니다 :

0xd => ‪3264 x 2448‬ 0xd => b"?3264 x 2448?" len: 13 

이것은 실제 문자열을 16 진수로 변환됩니다

System.Image.Dimensions 여기

property format: {6444048F-4C8B-11D1-8B70-080036B11A03} 
    0xd => 13 => property id (for Systems.Image.Dimensions) 
    3264 x 2448 => Image dimensions as the "appear" on the screen 

내가 (파이썬 3.5 출력)가 무엇인가 바이트.

Hex Bytes: e2 80 aa 33 32 36 34 20 78 20 32 34 34 38 e2 80 ac 
Character: ?? ?? ?? 3 2 6 4  x  2 4 4 8 ?? ?? ?? 

"0xe280aa"와 "0xe280ac"이 무엇인지, 무엇이 빠졌는지 아는 사람이 있습니까?

jpg 이미지의 전체 속성 컬렉션에서 유일한 "흥미로운"문자입니다. 나는 그들이 무엇인지, 왜 그들이 존재 하는지를 모른다.

답변

1

속성 텍스트는 UTF-8로 인코딩됩니다.

e2 80 aa은 유니 코드 코드 포인트 U+202A LEFT-TO-RIGHT EMBEDDING의 UTF-8 인코딩입니다.

e2 80 ac은 유니 코드 코드 포인트 U+202C POP DIRECTIONAL FORMATTING의 UTF-8 인코딩입니다.

왼쪽에서 오른쪽으로 텍스트를 양방향 텍스트로 삽입 할 때이 마커가 사용됩니다.

레이몬드 첸 Windows 탐색기에 표시되는 파일 이름과 유사한 문제와 관련하여 이것에 대해 블로그 :

Why is there an invisible U+202A at the start of my file name?

+0

내가 유니 코드의이 지역에 매우 익숙이고 그것을 설명조차 어려운 시간을 보내고 있었다. 정보와 포인터를 가져 주셔서 감사합니다. – billbris