2011-08-25 2 views
1

나는 치료법을 사용하여 웹 페이지에서 텍스트를 긁어 냈습니다. 거미, 나는 코드처럼이 : 여기국제 텍스트의 치료 문제

title = hxs.select("//h1/text()").extract() #1 
final_text = title[0].encode('utf-8') #2 

문제 라인 # 1 [u'Puerto 금지 \의 xfas '] 라인 # 2 푸에르토 반을 제공을 제공입니다 \ XC3 \

그러나 원본 텍스트 xbas 푸에르 Banús되었습니다. 이 원본을 저장하고 표시하려면 어떻게합니까?

답변

1
>>> print u'Puerto Ban\xfas' 
Puerto Banús 
>>> print 'Puerto Ban\xc3\xbas' 
Puerto Banús 

여기에는 문제가 없습니다.