1
뉴스 웹 페이지에서 단락의 내용 (텍스트로 가득)을 추출하고 싶습니다. 단락. 아래 코드를 사용하면 전체 HTML 페이지를 제공합니다.
다음은 전체 HTML 페이지를 출력 print p.read()
라인을 가지고 있기 때문입니다 내 코드단락에서 내용을 (텍스트로 가득) 아름다운 수프
import urllib2
import urllib
from cookielib import CookieJar
from bs4 import BeautifulSoup
cj = CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
p = opener.open("http://www.nytimes.com/2014/09/09/world/europe/turkey-is-courted-by-us-to-help- fight-isis.html?module=Search&mabReward=relbias%3Aw%2C%7B%222%22%3A%22RI%3A18%22%7D&_r=0")
print p.read()
soup = BeautifulSoup(p)
content = soup.find('p', attrs= {'class' : 'story-body-text story-content'})
print content
IDE에서 잘 인쇄되지 않는 경우 p.text.encode ('utf-8'). –