2016-07-03 3 views
2

일부 문자를 제거하기 위해 파이썬 정규 표현식을 사용하려고합니다. 문자열에서 유니 코드가 아닌 것처럼 보입니다.파이썬 비 유니 코드 문자를 제거하는 정규식

>>> xxx='Juliana Gon\xe7alves Miguel' 
>>> t=re.sub('\w*','',xxx) 
>>> t 
' \xe7 ' 

이 \의 xe7 내가 제거하기 위해 노력하고 무엇 :

xxx='Juliana Gon\xe7alves Miguel' 
t=re.sub('\w*','',xxx) 
t 

결과는 같다 : 여기 내 코드입니다. 누구든지 아이디어가 있습니까?

+1

: 모든 ASCII 문자

(?!) 짧은 읽을 버전. 그것이해야하는 편지로 변환하고 싶습니다. 맞습니까? –

+1

나는 그것을 알아 낸 것 같아 .'xxx = 'Juliana Gon \ xe7alves Miguel' t = re.sub (re.sub ('\ w *', '', xxx) .strip(), '', xxx) t' –

답변

2

원하는 출력은

'줄리아나 Gonalves 미구엘'

다음 정규식이해야 할 트릭 인 경우.

re.sub('(?![ -~]).', '', xxx) 

[ -~] : u는 그것을 제거하지 않는 부정적 예측

+0

와우! 귀하의 코드는 매력처럼 작동합니다! –

관련 문제