0
저는 파이썬을 사용하여 웹 크롤링에 scrapy를 사용하고 있습니다. 스크래핑 중 '\ xa0', '\ x0259'와 같이 올바르게 인코딩되지 않은 문자가 있습니다. 파이썬으로 어떻게 처리 할 수 있습니까?치료 데이터가 파이썬에서 올바르게 인코딩되지 않았습니다.
저는 파이썬을 사용하여 웹 크롤링에 scrapy를 사용하고 있습니다. 스크래핑 중 '\ xa0', '\ x0259'와 같이 올바르게 인코딩되지 않은 문자가 있습니다. 파이썬으로 어떻게 처리 할 수 있습니까?치료 데이터가 파이썬에서 올바르게 인코딩되지 않았습니다.
유니 코드 문자열 유형 (http://docs.python.org/2/tutorial/introduction.html#unicode-strings)은 u
과 같은 문자의 모든 인스턴스를 앞에 추가하여 사용할 수 있습니다. 예 : u'\xa0'
및 u'\x0259'
. unicode-string 파이썬 문서는 또한이 문자열과 문자를 인코딩하고 디코딩하는 몇 가지 다른 방법을 제공합니다.
당신은 http://stackoverflow.com/questions/10735836/scrapy-spider-dealing-with-pages-that-have-incorrectly-defined-character-encodi를 보셨습니까? –
더 많은 컨텍스트를 제공해야합니다. 코드가 있습니까? Scrapy는 유니 코드를 다룰 수있게 해주는 API를 제공하지만 여기에서는 우리에게 몇 가지 문자를 보여 주며 그들이 어디서 왔는지, 정확한 문자 인코딩이 무엇인지, 또는 당신이 그들과 함께하고 싶은 것을 전혀 모릅니다. –