2014-07-09 2 views
1

저는 HTML 파서를 초보자입니다. 사실 URL (http://www.quora.com/How-many-internships-are-necessary-for-a-B-Tech-student)을 사용하여 웹 페이지의 소스 코드를 구문 분석하려고합니다. 나는 answer_count를 얻으려고하고있다.BeautifulSoup python 사용 중 오류가 발생했습니다.

나는 다음과 같은 방법으로 그것을 시도 :

import urllib2 
from bs4 import BeautifulSoup 

q = urllib2.urlopen(url) 
soup = BeautifulSoup(q) 
divs = soup.find_all('div',class_='answer_count') 

하지만 목록 'div의'가 비어 얻을. 왜 그래야만하지? 내가 어디서 잘못한거야? 결과를 '2 답변'으로 사용하려면 어떻게 구현해야합니까?

+1

answer_count 클래스를 찾을 수 없습니까? – MA1

+1

소스 코드에 answer_count 클래스가 있습니다! 작은 패치가 있습니다 :

2 Answers

+1

MA1에 동의합니다. 내가로드 한 소스에 'answer_count'가 없습니다. 나는 당신이 urllib2가 쥐고있는 것과는 반대로 로그인되어있는 것을보고 있다고 생각한다. Chrome의 시크릿 모드에서 소스를보고 계속 div가 있는지 확인해보세요. – Hooked

답변

2

아마도 로그인 한 상태이므로 브라우저에 우리와 동일한 페이지가 없을 수도 있습니다.

Google 크롬에서 제공 한 웹 페이지를 보면 소스 코드에 'answer_count'가 없습니다. 그래서 Google 크롬이 찾지 못하면 BeautifulSoup도 표시되지 않습니다

+0

나는 파이썬 '요청'라이브러리를 사용할 것을 제안한다. 스크립트에서 모든 웹 사이트에 로그인 할 수 있습니다. – alexislg

관련 문제