2012-11-22 4 views
0

HTML 애자일티 팩을 사용하여 HTML을 구문 분석하고 있습니다. 때로는 이상하게 보이는 문자열을 얻습니다. "â €" ". 그들을 제거하는 가장 간단한 방법은 무엇입니까? 그건 그렇고, 나는 C#을 사용하고있다.문자열에서 인식 할 수없는 ASCII 문자를 제거합니다.

+1

가 실패 시간에 ... 인코딩 문제 같은데 왜 작동의 설명 http://www.catonmat.net/blog/my-favorite-regex/ 볼 트릭, 인코딩을 확인을하지 –

+2

미확인 Fo nt 객체 - 정의는 실제로 까다로울 것 같습니다. 주제에 전념하는 전체 사이트가 있습니다. –

답변

9

당신은 아마 왜 처음에 그 문자를 받고 조사해야하고, 그것은 가능성이 뭔가 인코딩에 이상이 될 것입니다

하지만 당신의 모든 비 ASCII 문자를 제거해야하는 경우 문자열, 정규식 [^ - ~]는

 var stripped = Regex.Replace("străipped of baâ€d charâ€cters", "[^ -~]", ""); 
     Console.WriteLine(stripped); //outputs "stripped of bad characters" 

그 정규식

+0

고맙습니다.이 코드는 저에게 효과적입니다 .. – andy

관련 문제