2013-03-26 2 views
3

다음과 같은 문자열이 있습니다.유니 코드 인코딩/디코딩

st = '/M\xe4rzen' 

저는 이것을 유니 코드로 변환하고 싶습니다. 어떻게해야합니까? 나는 시도했다 :

st.decode('utf-8') 
unicode(t, 'utf-8') 

원본 파일은 UTF-8로 인코딩,하지만 난 문자열의 유니 코드 표현을 얻을 수없는 것.

답변

11

데이터가 UTF8로 인코딩되지 않았습니다. 가능성은 라틴-1 인코딩을 사용하고 있습니다 :

>>> print st.decode('latin1') 
/Märzen 

.decode()를 호출하면 또한 전화 unicode()에 필요, 충분하지 않습니다.

관련 문제