UTF8 텍스트에서 모든 특수 문자를 제거하고 싶지만 일치하는 정규 표현식을 찾을 수 없습니다. 이 같은C#의 UTF8 텍스트에서 특수 문자를 모두 제거하려면 어떻게합니까?
내 텍스트 :
_->,.!"%=%!
나는이 정규식을 시도 :
result = Regex.Replace(text, @"([^a-zA-Z0-9_]|^\s)", "");
을 그러나 그것은 또한 내 uft8의 문자를 제거
ASDÉÁPŐÓÖŰ_->,.!"%=%!HMHF
난 단지 이러한 문자를 제거하고 싶습니다.
악센트 부호가있는 문자를 제거하고 싶지 않지만 모든 문자 모양을 제거하고 싶습니다.
"특수 문자"를 정의하십시오. Uncode에는 수천 개의 문자가 포함되어 있습니다. 유지하려는 범주를 시작으로하고 ("utf8 char"은 의미가 없으며 UTF-8은 유니 코드 코드를 단순히 옥텟 스트림으로 인코딩 한 것임) 문자 택 소노 미에 관해서는 아무것도 아님). – Richard
'\ P {L}'은 (는) * 문자가 아닌 모든 문자와 일치해야합니다. – ClasG
나는 그것이 중복이라고 생각하지 않는다. 나는 그것이 UTF-8을 포함하고 있는지 아닌지를 결정할 필요가 없다. utf8 문자열에서 모든 글리프 및 다른 문자를 제거하고 싶습니다. 나는 악센트 부호가있는 문자를 제거하고 싶지 않습니다 ... – tixovoxi