2016-11-29 1 views
0

기사가있는 html 문서가 있습니다. 텍스트 서식에 사용할 수있는 태그가 약간 있습니다. 하지만 내 텍스트 편집기는 서식을 지정하는 데 불필요한 태그를 많이 사용합니다. 이 태그를 필터링하기 위해 Python으로 프로그램을 작성하고 싶습니다. 그런 프로그램의 주요 논리 (구조, 전략)는 무엇입니까? 저는 파이썬에서 초보자이며 실제적인 실제 작업을 해결함으로써이 언어를 배우고 자합니다. 하지만 시작하려면 몇 가지 일반적인 개요가 필요합니다.Python으로 html 태그를 필터링하는 방법

+0

당신이 찾고 있던 무슨이 되었습니까? – Jarvis

답변

0

사용 BeautifulSoup :

여기
from BeautifulSoup import BeautifulSoup 
html_string = #the HTML code 
parsed_html = BeautifulSoup(html) 
print parsed_html.body.find('div', attrs = {attrs inside html code}).text 

, div 그냥 태그입니다, 당신은 누구의 텍스트 필터링하려는 태그를 사용할 수 있습니다.

0

요구 사항에 대해서는 분명하지 않지만 파이썬에서는 기성품 파서 인 BeautifulSoup을 사용해야합니다.

당신은 누락 될 일에 대해 모르는 tutorial here

0

찾을 수 있습니다,하지만 당신은 정규식을 사용할 수 있습니다.

re.sub('<[^<]+?>', '', text) 

위의 기능을 검색합니다 ...

그렇지 않으면 당신은 htmlparser 사용할 수 있습니다

from HTMLParser import HTMLParser 

class MLStripper(HTMLParser): 
    def __init__(self): 
     self.reset() 
     self.fed = [] 
    def handle_data(self, d): 
     self.fed.append(d) 
    def handle_entityref(self, name): 
     self.fed.append('&%s;' % name) 
    def get_data(self): 
     return ''.join(self.fed) 

def html_to_text(html): 
    s = MLStripper() 
    s.feed(html) 
    return s.get_data() 
관련 문제