2009-10-20 4 views
6

RTF 문서를 구문 분석 할 수있는 코드를 작성하고 사용할 수있는 다양한 코드 페이지를 처리해야합니다. 파이썬은 필요한 모든 윈도우 코드 페이지에 대한 디코더와 함께 제공됩니다,하지만 난 어떻게 맥 것들을 처리 할 확실하지 않다 :파이썬에서 Mac OS 텍스트 디코딩

# 77: "10000", # Mac Roman 
# 78: "10001", # Mac Shift Jis 
# 79: "10003", # Mac Hangul 
# 80: "10008", # Mac GB2312 
# 81: "10002", # Mac Big5 
# 83: "10005", # Mac Hebrew 
# 84: "10004", # Mac Arabic 
# 85: "10006", # Mac Greek 
# 86: "10081", # Mac Turkish 
# 87: "10021", # Mac Thai 
# 88: "10029", # Mac East Europe 
# 89: "10007", # Mac Russian 

합니까 파이썬이있는 모든 내장 이들에 대한 지원? 그렇지 않다면, 그들을 처리 할 수있는 크로스 플랫폼 pure-Python 라이브러리가 있습니까? 당신은 자신의 이름을 '맥 - 로마'로 알려진 이들에 대한 파이썬 코덱을 사용할 수 있습니다

답변

8

, '맥 - 터키어'등

>>> 'foo'.decode('mac-turkish') 
u'foo' 

당신은 자신의 이름으로 그들에게 참조 할 것 , 당신이 질문에 가지고있는이 숫자는 소스 파일에 나타나지 않습니다. 자세한 내용은 $pylib/encodings/mac_*.py을 참조하십시오.

+2

또한 이러한 Mac 인코딩은 고전적인 MacOS 날짜로 거슬러 올라가며 Mac OS X에서는 거의 사용되지 않습니다. –

1

그러나, unicode.org는 당신이 그 코덱을 구문 분석 모듈을 생성하는 데 사용할 수있는 코덱 설명 파일을 제공 호

. 파이썬 소스 배포판에는 다음 파일을 변환하는 스크립트가 포함되어 있습니다 : Python-x.x/Tools/unicode/gencodec.py.