단일 독일어 문자를 제거/교체해야합니다 (예 : ü
).re.sub()가 유니 코드를 어떻게 이해합니까?
import re
re.sub(r'^\w{1}$', '', u'ü', re.U)
> u'\xfc'
위의 코드가 작동하지 않습니다하지만 왜 같은 경우
re.U, re.UNICODE \의 W, \ B를, \의 B, w의 \을 확인, \ d, \ D, \ s 및 \ S 시퀀스는 유니 코드 문자 속성 데이터베이스에 따라 다릅니다. 또한 IGNORECASE에 대한 비 ASCII 일치를 가능하게합니다.
그런 식으로 국제 문자를 대체해서는 안됩니다. 'unidecode' 모듈이나'str.translate()'와 같은 더 좋은 해결책이 있습니다. – hop