BeautifulSoup에서 작업 중이며 버그 또는 내 오류가 발생했습니다. 내 예제에서는 뉴욕 타임즈의 하위 섹션 사이트 ... 내가 코드를 실행하면BeautifulSoup는 헤드 태그 안의 내용 만 반환합니다.
import urllib2
from bs4 import BeautifulSoup
website = "http://www.nytimes.com/pages/politics/index.html"
data = BeautifulSoup(urllib2.urlopen(website).read())
print data
, 나는 머리를 태그로 돌아와 그 안에 무엇을하고있어 크롤링. 그러나, 그것은 body 태그 내부에있는 것을 잡아 내지 못합니다. 웹 사이트 URL을 http://www.nytimes.com
으로 변경하면 BS가 전체 페이지 소스를 반환합니다. 여기에 무슨 일이 일어나고 내가 왜 http://www.nytimes.com/pages/politics/index.html
을 크롤링 할 때 바디 태그를 가져 오지 못합니까?
상대로 다음과 같은 버그에서 설명하고있다. 이 코드를 실행하면'head' 태그뿐만 아니라 전체 페이지를 가져옵니다. –
음 ... 질문에있는 코드는 내 파일에있는 그대로 사용합니다. 나는 또한 그것이'html' 태그를 움켜 잡았다 고 말할 것이다. 'body' 태그가 존재하지 않는 것처럼 행동합니다. – jason328
어떤 BeautifulSoup 버전을 사용하고 있습니까? 그리고 위의 코드 (그리고 위의 코드 만) 뒤에'data.body'를 출력하면'None'을 출력합니까? (나를 위해 그것은'body' 태그의 내용을 출력합니다) –