다음과 같은 문제가 있습니다 :python html 파싱
나는 html 파일을 구문 분석하고 html 파일에서 링크를 가져오고 싶습니다. 다음 코드로 링크를 얻을 수 있습니다 :
class MyHTMLParser(HTMLParser):
links=[]
def __init__(self,url):
HTMLParser.__init__(self)
self.url = url
def handle_starttag(self, tag, attrs):
try:
if tag == 'a':
for name, value in attrs:
if name == 'href':
if value[:5]=="http:":
self.links.append(value)
except:
pass
그러나 오디오 파일, 비디오 파일 등을 얻고 싶지 않습니다. 단지 HTML 링크 만 얻고 싶습니다. 어떻게해야합니까?
링크 끝을 확인할 수 있으며 특정 형식 인 경우 해당 링크를 목록에 추가하지 않아도됩니다. 다른 방법이 있습니까? –
http://stackoverflow.com/questions/717541/parsing-html-in-python?rq=1 – ppaulojr