2012-04-12 6 views
3

안녕하세요. Google 피드 API에서 반환 된 결과에서 태그를 제거하는 방법을 찾으려고합니다. 특히 그들은 제목과 설명 안에 굵은 태그를 넣고 있습니다. 다음과 같이 문자열에서 유니 코드 코드를 제거하는 가장 빠른 방법

삽입 된 코드

은 다음과 같습니다

\u003cb 
\u003e 
\u003c/b\u003e 

이후 나는 스트링 당이 코드의 각각에 대해하려면 string.replace()를 수행하려고했던 고정 금액하지만 나쁜 성능 결과 없습니다 놀랍게도. RegEx가 더 좋을지 확신하지 못합니다. 누구든지 이것을 제거하는 방법에 대한 아이디어가 있습니까? Google은 결과에서 태그를 제거하는 옵션을 제공하지 않습니다.

답변

2

당신은 같은 정규식을 사용하여 유니 코드를 제거 할 수이 하나

성능에 관해서는
\\u[\d\w]{4} 

var subject = @"\u003cb\u003e\u003c/b\u003e"; 
var result = Regex.Replace(subject, @"\\u[\d\w]{4}", String.Empty); 

this article는 정규식이 훨씬 느립니다 제안 보이지만, 자신의 데이터와 함께 나는 자신의 테스트를 실행하는 것입니다 그것은 크게 다를 수 있습니다. 정규 표현식 자체는 퍼포먼스에 큰 역할을 할 것이고, 정규 표현식이 사용되는 것을 기사에서 언급하지 않기 때문에 비교할 수 없다고 생각합니다. 데이터의 크기와 유형 또한 중요한 역할을하므로 데이터를 이해하지 않고 어느 것이 더 효과적인지 말하기는 어렵습니다.

또한 RegexOptions.Compiled 플래그로 compiling the regex을 시도해보고 성능을 향상시킬 수 있는지 확인해야합니다.

+0

죄송합니다. 명확하지 않았습니다. 나는 실제로 태그를 전혀 원하지 않는다. 나는 그것을 제거하는 성능 친화적 인 방법을 찾고있었습니다. 타겟팅하고있는 장치가 자동으로 변환되었습니다.이 태그는 대담한 태그임을 알았습니다. – loyalpenguin

+0

@loyalpenguin 나는 이제 이해합니다. 나는 당신을 위해 대답을 업데이트했다. – Robbie

+0

우수 답변. 시간 내 주셔서 감사합니다. – loyalpenguin

관련 문제