2011-09-26 5 views
2

mechanize을 사용하여 한자와 같은 일부 비 ASCII 문자가 포함 된 웹의 소스 페이지를 검색했습니다.파이썬 인코딩

#using python2.6 
from mechanize import Browser 

br = Browser() 
br.open("http://www.example.html") 

src = br.reponse().read() #retrieve the source of the web 

print src #print the src 

질문 :

코드 아래 진행의 charset=gb2312 페이지의 소스에

1.According, 나는 것을 볼 수 있지만 print src는, 모든 내용이 올 때, 나는 횡설수설하는 것을 의미하지 않는다. 왜? print은 src의 인코딩을 알고 있습니까?

2. 명시 적으로 디코딩 또는 인코딩해야합니까?

+1

인쇄는 콘솔의 인코딩 체계에 따라 인코딩을 수행합니다. 결과를 파일로 출력하려면 – xiaohan2012

답변

3

src은 인코딩이없는 unicode입니다. print (이상 정확하게, sys.stdout.write()) 출력 할 때 사용할 인코딩을 파악합니다.

+0

인코딩이 필요합니까? 하지만 유니 코드 (utf-8?)는 인코딩이 아닙니까? – Alcott

+2

[유니 코드는 UTF-8이 아닙니다.] (http://www.joelonsoftware.com/articles/Unicode.html) –

관련 문제