프랑스어 문장을 단어로 분리하기 위해 토크 나이저를 사용하고 프랑스 문자 â
을 포함하는 단어에 문제가있었습니다. Python이 매우 수수께끼 같은 정규식 유니 코드 동작
>>> re.match(r"’", u'â', re.U)
>>> re.match(r"[’]", u'â', re.U)
<_sre.SRE_Match object at 0x21d41d0>
â
는이 앙상블 정규 넣어 것 ’
경우 포함하는 패턴으로 일치합니다.
UTF-8 처리와 관련된 문제가 있습니까? 아니면 버그입니까?
내 파이썬 버전은 다음과 같습니다
Python 2.7.3 (default, Jan 2 2013, 13:56:14)
[GCC 4.7.2] on linux2
편집 :
흠이 embarassingly 충분히, 대체 r
가 u
수정 문제와 패턴을 접두어로 보인다. 공식 문서가 광범위하게 사용하는 이유
이 궁금 r
다음 :((
'r'은 정확하고 중요합니다. 'r' 대신 ** **'u' (대답 참조)를 추가해야합니다. –
@ m.buettner : 예 답변을보기 전에 편집했습니다. 나는 계속해서'r'과'u'가하는 일을 점검했고, 실제로 둘 다 중요합니다. 감사합니다 :) – m09