파이썬에서 유니 코드 텍스트를 표준화하려고합니다. 나는 파이썬에서 결합 유니 코드 문자의 "비정규 화 된"형식을 얻는 쉬운 방법이 있는지 궁금합니다. 예 : uo \ xaf '(즉, latin small letter o
다음에 combining macron
) 시퀀스가있는 경우 ō (latin small letter o with macron
)가 표시됩니다. 그것은 다른 길을 갈 쉽게 :파이썬 "유니 코드 조합 문자"를 denormalize
o = unicodedata.lookup("LATIN SMALL LETTER O WITH MACRON")
o = unicodedata.normalize('NFD', o)
U + 00AF *이 장음을 결합 * 아니다. U + 0304입니다. – kennytm
'\ xaf'는 결합 매크로가 아니며 '\ u0304'가 있습니다. –
oops. 내가 질문을 썼을 때 숫자가 섞여있어 :) – Puzzled79