내가 지정한 일부 문자열을 제외한 모든 HTML 태그를 제거하고 싶습니다. 내가 전화를 기본값으로 모든 것을 가진 생성자가 잘 작동하는 경우 :스트립 HTML 태그 - lxml.html.clean.clean_html이 예상대로 작동하지 않습니다.
>>> cleaner = lxml.html.clean.Cleaner()
>>> cleaner.clean_html('''<i>italic</i><script>alert('');</script>''')
'<span><i>italic</i></span>'
하지만 몇 가지 태그를 지정하려고하면 일이 더 이상 작동하지 않습니다
>>> allowed_tags = ['i','s']
>>> cleaner = lxml.html.clean.Cleaner(remove_unknown_tags=False,allow_tags=allowed_tags)
>>> cleaner.clean_html('''<i>italic</i><s>strike</s>''')
'<span></span>'
이 그래서 내가 뭘 잘못?