2010-03-10 3 views
0

에이 정규 표현식을 변환하는 방법 파이썬에서이 정규 표현식을 사용하려면 :파이썬

<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+> 

(RegEx match open tags except XHTML self-contained tags에서)

def removeHtmlTags(page): 
    p = re.compile(r'XXXX') 
    return p.sub('', page) 

내가 직접 복잡한 정규 표현식을 대체 할 수 있다는 것 위의 함수로.

+0

오류 또는 문제는 당신이 무엇을 가지고? –

+0

정규식에서 아포스트로피를 백 슬래시로 이스케이프하고 있습니까? 우리가 실제로 작동하지 않는 코드를 볼 수 있습니까? – Tom

+0

그게 도움이 : – JinSnow

답변

1

잘 작동합니다. 따옴표로 인해 문제가 발생한 것 같습니다. 그냥 트리플 인용 그것은 :

def removeHtmlTags(page): 
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''') 
    return p.sub('', page) 
0

당신이 HTML 태그를 제거해야하는 경우,이 그것을해야을 :

import re 

def removeHtmlTags(page): 
    pattern = re.compile(r'\<[^>]+\>', re.I) 
    return pattern.sub('', page) 
+0

그게 문제가 아니었지만 원래 정규식의 요점은 속성 값 내에 꺾쇠 괄호를 허용하는 것입니다. –