밑줄을 제외하고 유니 코드에서 두 자의 sumbols를 모두 찾아야합니다. 현재 solutin은 다음과 같습니다Python regex exclude Underscore
pattern = re.compile(ur'(?:\s*)(\w{2})(?:\s*)', re.UNICODE | re.MULTILINE | re.DOTALL)
print pattern.findall('a b c ab cd vs sd a a_ _r')
['ab', 'cd', 'vs', 'sd', 'a_', '_r']
내가 정규식에서 _ 밑줄을 제외해야하므로 A_ 및 _r가 발견되지 않습니다. 문제는 제 캐릭터가 어떤 언어로든있을 수 있다는 것입니다. 그래서 나는 정규식을 이런 식으로 사용할 수 없다 : [^ a-zA-Z]. 예를 들어, 러시아어 :
print pattern.findall(u'ф_')