2011-03-04 3 views
0
<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a> 

내 프로그램은 html 파일을 읽고 이상은 그 파일의 청크입니다. BeautifulSoup을 파이썬으로 사용하여 Miss Black OCU 2011을 잡고 싶습니다. 어떤 제안?Python : BeautifulSoup로 HTML 구문 분석하기

답변

0

href 속성이 "보고 ..."= href가 같은 문자 패턴을 따르는 경우 쉽게 문제를 해결할 수 내가 태그 및 NavigableString 클래스

text = """<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>""" 
soup = BeautifulSoup(text) 
print soup.find('a').text 
0

의 속성을보고 제안 re : regular expression을 사용합니다.

import re 
from bs4 import BeautifulSoup 
response = """<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>""" 
# the response should might be the urlreponse object if you search through a whole html page 
soup = BeautifulSoup(response) 
print soup.find("a", {"href":re.compile(".*watch.*")}).text 

결과는 다음과 같다 :

Miss Black OCU 2011 

요점은 정규 표현식 패턴을 찾을 수있다. 다시에 대한 자세한 정보는 여기를 클릭하십시오. :