이것은 실제로 파이썬 관련 질문이 아니지만 일반적으로 언어 인코딩과 관련이 있습니다. 트위터에서 트윗을 마이닝하고 있는데 일본어로 된 커다란 사용자 커뮤니티가 있습니다. XML 파일의 트윗 인코딩을 시도했을 때 utf-8을 사용했습니다. 예 : tweet = tweet.encode ('utf-8'). 일본 짹짹이 없어야합니다. 포즈를 취하는 나의 질문은 어떻게 인코딩해야합니까? 내 실수는 뭐니? CSV에 데이터를 저장하려면이 경우 어떤 인코딩 체계를 사용해야합니까?파이썬을 사용하는 동아시아 언어 인코딩
1
A
답변
3
일반적으로 데이터의 인코딩 형식을 쿼리하면됩니다. 그렇지만 Shift-JIS는 일본어 텍스트에 널리 사용되는 인코딩입니다.
>>> u'あいうえお'.encode('shift-jis')
'\x82\xa0\x82\xa2\x82\xa4\x82\xa6\x82\xa8'
2
트위터에서 읽을 때 트윗 인코딩을 쿼리 할 수있는 방법이 있어야합니다. 그런 다음 을을 유니 코드로 디코드 한 다음 프로그램으로 읽어 들인 다음 인코딩 한 다음 다시 XML 파일에 씁니다. 중국, 예를 들어, GBK에게 인코딩을 사용 할 수 있습니다
import codecs
unicode_data = data.decode('gbk')
f = codecs.open('out.xml','w','utf-8')
f.write(unicode_data)
f.close()
+0
제안 해 주셔서 감사합니다. – GobiasKoffi
관련 문제
- 1. 동아시아 언어 지원을 감지 할 수 있습니까?
- 2. 파이썬을 사용하는 RDP
- 3. DataDynamics.ActiveReports.Export.Pdf.PdfExport 참조의 언어 인코딩 문제
- 4. 파이썬을 사용하는 트위터 친구 찾기
- 5. 파이썬을 사용하여 wifi를 사용하는 방법?
- 6. 테스터가 사용하는 스크립트 언어
- 7. MonoTouch를 사용하는 다른 언어
- 8. Windows XP에서 동아시아 언어 팩을 설치하지 않고 GDI +를 사용하여 일본어 텍스트를 표시하는 데 도움이 필요합니다.
- 9. 파이썬을 사용하는 이진 이미지에 데이터 임베드
- 10. 웹 페이지에서 파이썬을 웹 페이지로 사용하는 방법
- 11. MySQL에서 파이썬을 사용하는 단일 변수를 삽입하십시오.
- 12. 파이썬을 사용하는 휴대 전화의 IMEI 번호
- 13. 파이썬을 사용하는 제곱근 루프에 문제가 있습니다
- 14. 이 코드에서 파이썬을 사용하는 'wb'란 무엇입니까?
- 15. 루비 : 동아시아 너비 (유니 코드) 확인
- 16. 라틴어 및 동아시아 문자에 어떤 글꼴을 사용해야합니까?
- 17. 맞춤식 언어 (PureData/MaxMSP/ChucK)를 사용하는 일반 프로그래밍 언어 (Python)의 합성
- 18. Google 비디오에서 사용하는 mp4 인코딩?
- 19. 글로벌 리소스를 사용하는 언어 전환기
- 20. 노르웨이어 언어 iphone을 사용하는 방법?
- 21. SQL에서 SQL 인코딩 인코딩 스튜디오
- 22. 파이썬을 cygwin으로
- 23. XML 선언의 인코딩 python
- 24. NSData + Base64.h를 사용하는 인코딩/디코딩
- 25. Windows에서 wofstream을 사용하는 UTF-16 인코딩 유형
- 26. 홀수 및 짝수를 사용하는 US-ASCII 인코딩?
- 27. 자연 언어 컨텍스트를 사용하는 문자열 청킹 알고리즘
- 28. 다중 언어 지원을 사용하는 자바 스윙 프로그램
- 29. 기본 접두사가있는 언어 접두어를 사용하는 CakePHP 라우팅
- 30. ANTLR을 사용하는 동적 유형 언어 예제
당신이 슬라브 언어 나 남아시아 언어에 대한 어떤 인코딩 방식을 제안? – GobiasKoffi
나는 파이썬의 단서를위한 표준 인코딩을 살펴볼 것이다. http://docs.python.org/library/codecs.html#standard-encodings –