2010-08-06 2 views
0
내가 변환하는 HTML 민첩성 팩을 사용하고

의 조각에서 텍스트를 추출하려고 문제로 실행는 HTML

<font size="1">This is a test</font> 

이 코드를 사용하여

This is a test 

에 :

HtmlDocument doc = new HtmlDocument(); 
doc.LoadHtml(html); 
string stripped = doc.DocumentNode.InnerText; 

하지만 문제가있는 곳 :

210 위의 코드를

This is a test &amp; this is a joke 

이 변환하지만 난 그것을로 변환하고 싶었 :

This is a test & this is a joke 

않습니다 내가 뭘하려고 오전 html로 민첩성 팩을 지원합니까? HTML Agiligy 코드가 기본적으로이 작업을 수행하지 않거나 잘못된 작업을 수행하는 이유는 무엇입니까?

답변

2

출력에 HttpUtility.HtmlDecode()을 실행할 수 있습니다.

그러나 InnerText에는 가장 바깥 쪽 태그 안에 포함될 수있는 HTML 태그가 포함됩니다. 모두 태그를 제거하려면 문서 트리를 탐색하고 모든 텍스트를 조금씩 검색해야합니다.

+0

이 작업은 &에 적합하지만 도움이되지 않습니다.   – leora

+1

HttpUtility.HtmlDecode (" ")는 나에게 예상대로 공간을 제공합니다. –

+0

@ooo -  에서 작동하지 않는다고 생각하는 이유는 확실하지 않지만 ... – Timwi