다음을 사용하여 파이썬에서 HTML 태그를 제거하지만, & (앰퍼샌드)도 제거하고 있습니다. 어떤 아이디어? HTMLParser 수입 HTMLParser에서파이썬에서 & amp; 앰퍼샌드를 제거하지 않고 HTML 태그를 제거하십시오.
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
왜 '&'하지만'<'가 아니길 원합니까? 텍스트를 HTML로 연결하기 전에 ** 텍스트를 이스케이프해야합니다. – SLaks
코드 들여 쓰기가 수정되었습니다. :) – jwarner112
도움을 주셔서 감사합니다! 그 이유는 웹 페이지에서 필드를 읽고 있기 때문에 일부 필드에 머물러야한다는 것입니다 (예 : Nathan & Jones Law Firm) – chaugen1