2012-04-02 4 views
0

내 스크립트에 문제가 있습니다. 제목과 링크를 얻을 수 있지만 기사를 열어 기사를 긁어 모으는 것 같습니다. 누군가 제발 도와주세요!Rss BeautifulSoup로 스크랩하기

from urllib import urlopen 
from BeautifulSoup import BeautifulSoup 
import re 

source = urlopen('http://www.marketingmag.com.au/feed/').read() 

title = re.compile('<title>(.*)</title>') 
link = re.compile('<a href="(.*)">') 

find_title = re.findall(title, source) 
find_link = re.findall(link, source) 



literate = [] 
literate[:] = range(1, 10) 

for i in literate: 
    print find_title[i] 
    print find_link[i] 

articlePage = urlopen(find_link[i]).read() 

divBegin = articlePage.find('<div class="entry-content">') 

article = articlePage[divBegin:(divBegin+1000)] 

soup = BeautifulSoup(article) 

paragList = soup.findAll('p') 

for i in paragList: 
     print i 
     print ("\n") 
+1

각 코드 앞에 4 칸을 놓거나 코드를 모두 읽고 코드를 읽기 쉽도록 "코드 샘플"버튼 (이 중괄호 {}와 같은 중괄호 포함)을 클릭하십시오. 또한 우리가 현재의 출력 샘플 라인과 바람직하게 원하는 출력을 보여줄 수 있다면 도움이 될 것입니다 :) –

답변

2

HTML을 구문 분석하기 위해 정규식을 사용하지 마십시오. 그냥 아름다운 스프를 사용하고 find_all 같은 시설을 이용하면 urllib2.urlopen을 사용하여 URL을 열고 내용을 읽을 수 있습니다. 실제로 XML 파싱을위한 BeautifulSoup로를 사용하는 이유는 무엇입니까 http://www.youtube.com/watch?v=Ap_DlSrT-iE

: