Python : BeautifulSoup로 HTML 구문 분석하기

<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>

내 프로그램은 html 파일을 읽고 이상은 그 파일의 청크입니다. BeautifulSoup을 파이썬으로 사용하여 Miss Black OCU 2011을 잡고 싶습니다. 어떤 제안?Python : BeautifulSoup로 HTML 구문 분석하기

출처

2011-03-04 jack

href 속성이 "보고 ..."= href가 같은 문자 패턴을 따르는 경우 쉽게 문제를 해결할 수 내가 태그 및 NavigableString 클래스

text = """<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>""" 
soup = BeautifulSoup(text) 
print soup.find('a').text

출처

2011-10-03 15:53:16 Doran

의 속성을보고 제안 re : regular expression을 사용합니다.

import re 
from bs4 import BeautifulSoup 
response = """<a href="/watch?gl=US&amp;client=mv-google&amp;hl=en&amp;v=0C_yXOhJxWg">Miss Black OCU 2011</a>""" 
# the response should might be the urlreponse object if you search through a whole html page 
soup = BeautifulSoup(response) 
print soup.find("a", {"href":re.compile(".*watch.*")}).text

결과는 다음과 같다 :

Miss Black OCU 2011

요점은 정규 표현식 패턴을 찾을 수있다. 다시에 대한 자세한 정보는 여기를 클릭하십시오. :

출처

2013-02-08 23:32:50

Python : BeautifulSoup로 HTML 구문 분석하기

답변

관련 문제