2011-08-01 6 views
1

나는 기계어를 사용하여 웹 사이트의 html을 구문 분석하지만이 웹 사이트에서는 이상한 결과가 나타납니다.Python urllib2 parse html 문제

from mechanize import Browser 
br = Browser() 
r = br.open("http://www.heavenplaza.com") 
result = r.read() 

결과는 내가 이해할 수없는 것입니다. 당신은 여기에서 볼 수 있습니다 : http://paste2.org/p/1556077

누구나 웹 사이트 HTML을 얻을 수있는 방법이있을 수 있습니까? 기계화 또는 urllib와.

감사합니다.

+1

이 질문에 대해 답보다는 페이스트 빈에 결과를 게시하시기 바랍니다 작동합니다. 특히 결과가 한 줄로 길어질 때! – senderle

답변

1
import urllib2, StringIO, gzip 
f = urllib2.urlopen("http://www.heavenplaza.com") 
data = StringIO.StringIO(f.read()) 
gzipper = gzip.GzipFile(fileobj=data) 
print gzipper.read() 
+0

작동 했으므로 감사합니다. :) – kairyu

1

나는 콘솔에서 스크립트를 신속하게 확인했으며 사이트는 허튼 소리를 내고있었습니다. 사이트에서 로봇을 사용하지 않는다고 생각하는 HTTP 사용자 에이전트를 속일 필요가있을 것입니다.

http://www.google.com

+0

이것은 내 사용자 에이전트입니다 : br.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; ko-kr, rv : 1.9.2.17) Gecko/20110420 Firefox/3.6. 17 ')] 그것도 작동하지 않습니다. – kairyu

+0

위의 답장을 토대로 사이트가 올바르게 받아 들일 수없는 gzip 헤더를 사용하지 않음 –

관련 문제