2012-08-16 3 views
-1

이 부분의 HTML 페이지를 구문 분석하여 CSV 파일로 출력 한 다음 다음 출력을 기다려야합니다. 내가 정규식에 관해서는 손실에있어.웹 크롤링 출력에서 ​​특정 텍스트를 구문 분석하십시오.

나는 주소 정보 만 회사 이름 (URL에서 제공) ID 없이 할 수
<h1>Member Information</h1> 


<h2>Company Name</h2> 
<p>Address<br /> 
More Address<br /> 
City<br /> 
State<br /> 
Postal code<br /> 
</p> 
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:[email protected]">[email protected]</a><br /></p> 
<a href="http://www.domain.com">www.domain.com</a><br /> 
<p><strong>Phone:</strong> (555)555-5555<br /></p> 

</div><!-- end #content --> 

, 우선/성 (제목 가능한 경우), 이메일, URL, 전화 번호는 것 엄청나게 귀중한 것. 감사!

답변

3

HTML (또는 XML, Json, CSV ...)을 구문 분석하는 데 regex를 사용하지 마십시오.

대신 BeautifulSoup을 사용하십시오.이 라이브러리는 이미 이러한 작업을 위해 작성된 훌륭한 라이브러리입니다.

예 :

from bs4 import BeautifulSoup as BS 
soup = BS(htmltext) 
soup.h2.text 
>>> 'Company Name' 
+0

감사합니다, 나는 그것을 시도 할 것이다! – Publiccert

관련 문제