2013-01-24 3 views
0

저녁 (또는 아침은 현재 위치에 따라 :)).Python 2.7에서 HTML 구문 분석

나는 다음과 비슷한 여러 세그먼트가 포함 된 웹 페이지를 구문 분석 찾고 있어요 : -

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr 
> Billy Smith<br />The Managing Director<br />123 Jones Street, 
> London<br />T:02081234567<br /><a 
> href="mailto:[email protected]">Email</a></p> 

내가 무엇을 희망하고있어 웹 페이지에서 소스 코드를 캡처하고 그것을 통해 구문 분석하는 것입니다 위의 고유 정보를 추출하여 제목, 사무실 이름, 개인 이름, 직업 역할, 주소, 전화 번호, 전자 메일 주소를 분할하여 끝에 새 줄이있는 탭 구분 된 문서의 행에 배치하십시오.

나는 BeautifulSoup를 사용하여보고 있었지만 더 적합한 다른 도구가 있는지 궁금한가요?

답변

0

BeautifulSoup로 괜찮은 인기 라이브러리입니다하지만 당신은 내가 BeautifulSoup로 당신의 가장 쉬운 옵션을하고 HTML의 페이지 또는 덩어리를 구문 분석 말하고 싶지만 lxml

1

에 모습을 가질 수 있습니다. 또한 scrapy을 시도하거나 심지어 BS에 대한

샘플 사용을 scraperwiki 수

import BeautifulSoup 
import urllib2 

get = urllib2.urlopen('http://site.com').read() 
dom = BeautifulSoup.BeautifulSoup(get) 
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p> 

for i in data: 
    print data 

더 많은 예제 : http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

0

웹 긁어 프레임 워크 Scrapy이 작업 http://scrapy.org/ 이런 종류의 좋은 선택 때문 만 이를 파싱하고 데이터를 추출 할 수 있지만 자동 스크래핑 작업을 실행할 수 있습니다.