나는 다음 페이지를 크롤링 : page_html가에서 콘텐츠입니다 BeautifulSoup로 (page_html을) :BeautifulSoup로 4 : 분할 오류가 (코어 덤프)
http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html
을하지만 분할 오류 (코어 덤프) 가지고 호출 할 때 요청 라이브러리. 이것이 BeautifulSoup의 버그입니까? 이 문제를 해결할 방법이 있습니까? try ... except와 같은 접근조차도 코드를 실행하는 데 도움이 될 것입니다. 미리 감사드립니다.
코드는 다음과 같습니다 : 확실히
import requests
from bs4 import BeautifulSoup
toy_url = 'http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html'
res = requests.get(toy_url,headers={"USER-Agent":"Firefox/12.0"})
page = res.content
soup = BeautifulSoup(page)
코드를 재현 할 수 있도록 표시하십시오 (urllib2 및 BeautifulSoup로는 이것을 재현 할 수 없습니다). –
@DavidRobinson 코드가 추가되었습니다. 질문 주셔서 감사합니다. – Taosof
'lxml'을 설치하십시오. py2.7의 기본 HTML 파서는 잘못된 태그 때문에이 페이지를 구문 분석하지 않습니다 ... BTW, py3.2는 정상적으로 작동합니다. (segfault로 만들 수 없습니다) – JBernardo