최근에는 중국어, 영어, 심지어 일부 이모티콘을 포함한 여러 언어로 된 텍스트를 다루었습니다.단어가 반자체인지 아니면 전체체인지 구분하는 방법은 무엇입니까?
나는이 문제를 상당히 많이 조사해 왔지만, 내가 찾을 수있는 유일한 것은 문자가 절반인지 여부를 결정하는 방법을 말하는 것이 아니라 "반자 문자로 반자 문자를 대체하는 것"입니다 - 또는 전폭 단어.
는 그래서, 내 질문은 :
이 단어는 반각 또는 전체 폭인지 여부를 알 수 있습니까?
일반적으로 텍스트를 검사하려면 NFKD와 같은 호환 분해 양식을 사용합니다. 이렇게하면 전폭 라틴 문자가 일반 (반가움)이되고, 가나/한글이 보통 (전각)이되어 텍스트를 더 쉽게 분석 할 수 있습니다. 파이썬에서는'import unicodedata; unicodedata.normalize ('NKFD', text)'. –
정보를 제공해 주셔서 감사합니다! – amigcamel
NKFD가 아닌 NFKD입니다. –