2010-06-14 5 views
0
<div id="main"> 

<style type="text/css"> 
</style> 

<script language="JavaScript">  
</script> 
<p style="margin: 0pt 0pt 0.5em;"><b>Media from&nbsp;<a onclick="(new Image()).src='/rg/find-media-title/media_strip/images/b.gif?link=/title/tt0087538/';" href="/title/tt0087538/">The Karate Kid</a> (1984)</b></p> 
<style type="text/css">  
</style> 

<table style="border-collapse: collapse;"> 
</table> 
</div> 

어떻게 든 (새로운 Image())의 href 값을 추출해야합니다. HtmlAgilityPack으로 정확히 이것을 어떻게 완성 할 수 있습니까?어떻게이 HTML 파일을 구문 분석 할 수 있습니까?

나는 그것에 익숙하지 않으며, 지금까지는 파싱에 효과적으로 사용하는 방법에 대한 유용한 자습서를 찾지 못했습니다.

도움 주셔서 감사합니다.

답변

0

HtmlAgilityPack 자체만으로는 많은 구문 분석 옵션을 제공하지 않습니다. 하지만 XPath와 함께 사용하면 복잡한 구문 분석을 수행 할 수 있습니다. 귀하의 예제에서 당신은 할 수 -

var testString = "..."; // Your html 
var doc = new HtmlDocument(); 
doc.LoadHtml(testString); 
var node = doc.DocumentNode.SelectSingleNode("/div/p/b/a"); 
var hrefValue = node.GetAttributeValue("href", "")); 

이 줄 것이다

/title/tt0087538/