2010-06-22 2 views
2

에 예 HTML (일명 언 포맷팅 (unformatting)) 태그 사이의 공백과 줄 바꿈을 제거 : 파이썬에서이 작업을 수행하는 방법파이썬

<p> Hello</p><div>hgello</div><pre> 
    code 
    code 
<pre> 

: 같은에서

<p> Hello</p> 
<div>hgello</div> 
<pre> 
    code 
    code 
<pre> 

가 회전을? 나는 또한 '\ n'을 ''로 대체하는 것은 옵션이 아니기 때문에 < pre> 태그를 집중적으로 사용합니다.

어떻게해야할까요?

답변

4

re.sub(">\s*<","><","[here your html string]")을 사용할 수 있습니다.

string.replace(">\n",">"), 즉 둘러싸는 괄호와 개행을 찾아 개행을 제거하십시오.

2

내가 파이썬 정규식을 사용하도록 선택하는 것이 다음 '\ s이 (가)'공백 문자를 발견

string.replace(">\s+<","><") 

'+'그것이 하나 이상의 공백 문자와 일치 표시 한 후. 이것은 가능성이 정규 표현식에 대한

<pre><pre> 

더 많은 정보는 here, herehere를 찾을 수와

<pre> 
    code 
    code 
<pre> 

교체 교체 제거합니다.

+0

그냥 질의 :'string.replace'는 정규 표현식을 사용하지 않는다고 생각합니까? – phimuemue

+1

@phimuemue에게 감사합니다. 대신 re.sub (regex, replacement, subject)를 사용하십시오. 정규 표현식은 "> \ s + <"이고 치환은 "><"입니다. – Kyra