2011-01-27 4 views
0

html에서 HTML 민첩성에 관심이있는 모든 것을 제거하려고합니다. 그러나 텍스트를 유지해야합니다. 예를 들어,이 태그에서 :html의 민첩성을 지닌 텍스트 만 가져 오기

<TR><TD> 
<B><A HREF="survival/index.html">Survival</A></B><BR> 
<I>Be Suspicious, Be Worried, Be Prepared</I><BR> 
<TD> 

난 단지 유지하려는 '의심해야합니다 ... "나는이 방법을 가지고 있지만, 매우 잘 작동하지 않습니다

:

private static HtmlDocument RemoveHTML(HtmlDocument document) 
    { 
     HtmlDocument textOfDoc = new HtmlDocument(); 
     foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body")) 
     { 
      var newNode = HtmlNode.CreateNode(node.InnerText+" "); 
      textOfDoc.DocumentNode.AppendChild(newNode); 
     } 
     return textOfDoc; 
    } 

감사!

답변

0

P, TITLE 및 BODY 태그 만 추출하는 것처럼 보입니다. 태그를 원한다면 다음과 같이해야합니다 :

document.DocumentNode.SelectNodes(".//p|.//title|.//body|.//i") 
+0

내가 원하는 것은 Lucene으로 색인을 생성하기 위해 페이지에서 텍스트를 선택하기 때문입니다. 마지막으로 닷넷 코드를 .Net과 같이 정리 한 후 foreach에 추가하면 ".//p|.//title|.body"로 잘 ​​동작합니다. 하지만 감사합니다. :) – Coconut