2013-05-11 3 views
0

파이썬 2.7.3 및 urllib2로 여러 페이지의 html 콘텐츠를 가져 오려고합니다. 대부분의 페이지를 들면 , 그것은 잘 작동하지만 http://www.bbc.co.uk/news/entertainment-arts-22441507#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa 같은 일부 페이지는 저에게이 내용 반환 :Python urllib2가 noscript-content를 반환합니다.

이 페이지는 최고의 스타일 시트 (CSS)과 최신 웹 브라우저에서 볼 활성화. 현재 브라우저에서이 페이지의 내용을 볼 수는 있지만 완전한 시각적 경험을 얻을 수는 없습니다. 가능하면 브라우저 소프트웨어를 업그레이드하거나 스타일 시트 (CSS)를 활성화하십시오.

이 문제는 javascript가 필요한 페이지에서도 발생합니다. 나는 반환 된 noscript 태그 안에있는 내용만을 얻습니다.

cj = cookielib.CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
response = urllib2.urlopen(url).read().decode("utf-8") 

가 추가 헤더 있습니까 필요 : 여기

내가 콘텐츠를 어떻게?

+1

나에게 사용자 에이전트 검색과 유사합니다. 브라우저를 모방 한 위조 된 User-agent 헤더를 추가 할 수 있습니다 (예 : '모질라/5.0 (매킨토시, 인텔 맥 OS X 10.8, rv : 20.0) 게코/20100101 파이어 폭스/20.0'. – Xion

+0

더 친절한'요청'라이브러리를 사용하지 않는 이유는 무엇입니까? – SpankMe

+0

나는 requessts-library와 @Xion의 헤더로 시도했다. 아직도 성공하지 못했고, 어쩌면 내가 잘못한 일을하고있을 수도 있습니다. –

답변

0

javascript/ajax를 사용하기 전에 원본 HTML 페이지를 가져 오는 것과 같은 소리가납니다. webkit을 사용하여 JavaScript가 적용된 페이지를 가져 오십시오. 링크가있는 대답은 here을 참조하십시오.

관련 문제