2012-03-08 3 views
1

학위 기호 (°)가 바이트 63 (3F)로 표시된다는 것을 알고있는 문자열이 있습니다.바이트에서 문자 인코딩을 확인하십시오.

각 문자는 단일 바이트로 표시됩니다.

사용 된 문자 인코딩을 어떻게 찾을 수 있습니까?

+0

아마도 바이트는 실제로 '?'문자 일 것입니다. (바이트 63) 데이터를 추출하는 odbc 드라이버가 문자를 나타내는 방법을 모르고 '?'로 바꿉니다. – Sebtm

+0

바이트 0x3F가 U + 00B0 ° DEGREE SIGN에 해당한다는 것을 어떻게 알 수 있습니까? 텍스트 파일의 8 비트 인코딩을 안정적으로 식별하는 도구가 있지만 좋은 작업을 수행하려면 1 바이트 이상이 필요합니다. 이 모델은 여러 개의 매우 큰 영어 코로나에서 훈련 된 언어 모델을 가지고 있으므로 그러한 텍스트에 대해서는 잘 (> 99 %의 정확도) 잘합니다. 영어가 아닌 다른 언어로 다른 모델을 사용할 수 있습니다. – tchrist

+0

나는 이것이 학위 기호라는 것을 확실히 알고있다. 오직 나는 문자 인코딩을 모른다. – Sebtm

답변

1

현대의 거의 모든 8 비트 인코딩은 ASCII 범위의 ASCII와 일치하므로 3F 16 진수 바이트는 물음표 "?"입니다. Sebtm의 의견에서 알 수 있듯이, 이것은 문자 수준의 데이터 오류로 인한 것일 수 있습니다. 예를 들어, ASCII로 제한된 일부 소프트웨어는 다른 모든 바이트를 "?"로 바꿀 수 있습니다. 이는 좋은 습관은 아니지만 가능합니다.

비 ASCII 바이트 인 경우 페이지 http://www.eki.ee/letter/chardata.cgi?search=degree+sign을 사용하여 추측 할 수 있습니다.

관련 문제