2011-08-01 2 views

답변

1

문자열을 먼저 정리 한 다음 잘라내십시오. strip_tags가 제대로 작동하지 않으면 일반 표현식을 사용하여 태그를 정리할 수 있습니다.

import re 
string = "<a href=''>abc</a>" 
string = re.sub("<\!?\\\\?\/?\w+[^>]*>", "", string) 

이 정규식은 여는 태그, 닫는 태그 및 주석 태그를 모두 지 웁니다. 이것은 간단한 해결책입니다, 당신은 regex를 엄격하게 만들 수 있습니다. \ w + 대신 (? : td | span | div ... 등)을 사용하여 정리할 태그를 지정할 수 있습니다.

1

텍스트를 자르기 전에 태그를 제거하거나 HTML 인식 truncatewords_html을 사용하십시오. 그렇지 않으면 손상된 데이터로 작업하고 있습니다.

관련 문제