2010-02-16 4 views
1

이것은 실제로 파이썬 관련 질문이 아니지만 일반적으로 언어 인코딩과 관련이 있습니다. 트위터에서 트윗을 마이닝하고 있는데 일본어로 된 커다란 사용자 커뮤니티가 있습니다. XML 파일의 트윗 인코딩을 시도했을 때 utf-8을 사용했습니다. 예 : tweet = tweet.encode ('utf-8'). 일본 짹짹이 없어야합니다. 포즈를 취하는 나의 질문은 어떻게 인코딩해야합니까? 내 실수는 뭐니? CSV에 데이터를 저장하려면이 경우 어떤 인코딩 체계를 사용해야합니까?파이썬을 사용하는 동아시아 언어 인코딩

답변

3

일반적으로 데이터의 인코딩 형식을 쿼리하면됩니다. 그렇지만 Shift-JIS는 일본어 텍스트에 널리 사용되는 인코딩입니다.

>>> u'あいうえお'.encode('shift-jis') 
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8' 
+0

당신이 슬라브 언어 나 남아시아 언어에 대한 어떤 인코딩 방식을 제안? – GobiasKoffi

+0

나는 파이썬의 단서를위한 표준 인코딩을 살펴볼 것이다. http://docs.python.org/library/codecs.html#standard-encodings –

2

트위터에서 읽을 때 트윗 인코딩을 쿼리 할 수있는 방법이 있어야합니다. 그런 다음 을 유니 코드로 디코드 한 다음 프로그램으로 읽어 들인 다음 인코딩 한 다음 다시 XML 파일에 씁니다. 중국, 예를 들어, GBK에게 인코딩을 사용 할 수 있습니다

import codecs 
unicode_data = data.decode('gbk') 
f = codecs.open('out.xml','w','utf-8') 
f.write(unicode_data) 
f.close() 
+0

제안 해 주셔서 감사합니다. – GobiasKoffi

관련 문제