2011-01-27 3 views
2

Outlook에서 저장 한 전자 메일을 텍스트로만 해독해야합니다. 불행히도 특별한 "스마트 쿼트 (smart quote)"문자를 포함하고 있기 때문에 그들은 ISO-8859-1에 있지 않습니다. Outlook에서 사용하는 코드 페이지가 파이썬에서 unicode.decode()로 전달할 수있는 실제 이름을 갖습니까? 아니면 수동으로 디코딩해야하는 임의의 구성된 난센스입니까? 그렇다면 누구나 Microsoft가 추가 한 모든 "특수"문자에 대한 참조가 있습니까?Outlook에서 일반 텍스트 메시지에 사용하는 인코딩은 무엇입니까?

+0

표준 UTF-8이 아닙니까? (나는 당신이 이미 그것을 시도했다고 가정합니까?) 나는 이것이 정말로 프로그래밍과 관련이 있다는 것을 확신하지 못했습니다. –

+0

Microsoft는 언제 UTF-8을 사용하기 시작 했습니까? 나는 그들이 UTF-16을 여전히 "유니 코드"라고 부르고 있다고 생각한다. –

답변

2

Outlook에서 현재 로캘의 메시지를 저장하는 것이 좋습니다. 제 추측은 Windows-1252입니다.

Nitpick : "스마트 인용 부호"란 실제로는 인용 부호의 모양을 나타냅니다. 귀하의 게시물에 사용 된 인용문을 "타자기 인용문"이라고합니다. 기계식 타자기의 경우 키 수는 주요 비용 요인이었고 따옴표는 서로 매우 비슷하게 보였으며 인치 기호는 단일 키로 통합되어 미학은 저주를 받았습니다.

+0

맞습니다. 그들은 Windows-1252에 있습니다. 감사. –

+0

그건 그렇고, 파이썬에서는 "cp1252"입니다. –

1

많은 (로케일 종속) Windows code pages이 있습니다. 따라서 최악의 경우 발신자가 거주하는 국가에 따라 다릅니다.

+0

모든 메시지는 미국 또는 영국 영어 로켈에서 온 것으로 가정 할 수 있습니다. 실제로 Windows-1252가 올바르게 인코딩 된 것 같습니다. 감사합니다. –

관련 문제