2013-07-18 4 views
0

저는 파이썬을 사용하여 웹 크롤링에 scrapy를 사용하고 있습니다. 스크래핑 중 '\ xa0', '\ x0259'와 같이 올바르게 인코딩되지 않은 문자가 있습니다. 파이썬으로 어떻게 처리 할 수 ​​있습니까?치료 데이터가 파이썬에서 올바르게 인코딩되지 않았습니다.

+0

당신은 http://stackoverflow.com/questions/10735836/scrapy-spider-dealing-with-pages-that-have-incorrectly-defined-character-encodi를 보셨습니까? –

+0

더 많은 컨텍스트를 제공해야합니다. 코드가 있습니까? Scrapy는 유니 코드를 다룰 수있게 해주는 API를 제공하지만 여기에서는 우리에게 몇 가지 문자를 보여 주며 그들이 어디서 왔는지, 정확한 문자 인코딩이 무엇인지, 또는 당신이 그들과 함께하고 싶은 것을 전혀 모릅니다. –

답변

1

유니 코드 문자열 유형 (http://docs.python.org/2/tutorial/introduction.html#unicode-strings)은 u과 같은 문자의 모든 인스턴스를 앞에 추가하여 사용할 수 있습니다. 예 : u'\xa0'u'\x0259'. unicode-string 파이썬 문서는 또한이 문자열과 문자를 인코딩하고 디코딩하는 몇 가지 다른 방법을 제공합니다.

관련 문제