파이썬 정규 표현식을 통해 웹 페이지를 크롤링

죄송합니다. 새 HTML입니다. 제 질문은 사소하지만 기꺼이 이해합니다.파이썬 정규 표현식을 통해 웹 페이지를 크롤링

파이썬을 사용하여 간단한 검색 엔진을 만들고 싶습니다.

그 링크 URL을 얻으려면 먼저 크롤러를 만들어야합니다.

그리고 정규 표현식을 사용하여 링크 된 URL을 추출하고 싶습니다.

그래서 연구했지만 HTML에서 링크의 정확한 패턴을 모르겠습니다.

from urllib import urlopen 
import re 

webPage = urlopen('http://web.cs.dartmouth.edu/').read() 
linkedPage = re.findall(r'what should be filled in here?', webPage)

출처

2014-08-29 SangminKim

특별히 HTML 구문 분석을위한 도구가 있습니다. 이들은 HTML Parsers입니다.

예는, BeautifulSoup 사용 :

from urllib2 import urlopen 
from bs4 import BeautifulSoup 

soup = BeautifulSoup(urlopen('http://web.cs.dartmouth.edu/')) 
for article in soup.select('div.view-content article'): 
    print article.text

인쇄 페이지의 모든 기사 :

Prof Sean Smith receives best paper of 2014 award 
... 
Lorenzo Torresani wins the Google Faculty Research Award 
...

은 또한 HTML을 구문 분석에 대한 정규식을 사용하는 이유를 참조하는 것은 피해야한다 :

RegEx match open tags except XHTML self-contained tags

출처

2014-08-29 13:57:38 alecxe

그래서 BeautifulSoup을 사용하여 웹 페이지에서 링크 된 URL을 추출하려면 어떻게 사용할 수 있습니까? – SangminKim

파이썬 정규 표현식을 통해 웹 페이지를 크롤링

답변

관련 문제