2010-11-23 5 views
1

HAP을 사용하여 HTML 문서를 구문 분석 할 때 이미지의 src 속성에 문제가 있습니다.이미지의 src 속성에 params가있는 긴 URL을 구문 분석하는 HTML 민첩성 팩

<img border='0' title='Kommunelogo' alt='Kommunelogo' style='margin-top: 5px;' src='http://livskraftig.bedrekommune.no/more/reports/profilechart.jsp?legend=Y&graphtype=xy&profileid=19433213274429306&element=72&addyears=true' />는 다음 HAP이 같은 이미지를 구문 분석 : 그것은 우연처럼 보이는 <img border='0' title='Kommunelogo' alt='Kommunelogo' style='margin-top: 5px;' src='http://livskraftig.bedrekommune.no/more/reports/profilechart.jsp?legend="Y"&amp;amp;graphtype="xy"&amp;amp;profileid="19433213274429306"&amp;amp;element="72"&amp;amp;addyears="tru"e'/>

그들이 속성입니다 생각하고 PARAMS을 분할 아이디의 src 속성 값은 매개 변수, 예를 가진 긴 URL입니다.

내 코드 :

HtmlDocument doc = new HtmlDocument(); 
doc.OptionOutputAsXml = true; 
doc.OptionAutoCloseOnEnd = true; 
doc.OptionFixNestedTags = true; 
doc.LoadHtml(input_which_is_a_whole_html_file); 

HtmlAgilityPack.HtmlNodeCollection imageNodes = doc.DocumentNode.SelectNodes("//img"); 
if (imageNodes != null) 
{ 
    foreach (HtmlAgilityPack.HtmlNode imgNode in imageNodes) 
    { 
     string imgSrc = imgNode.Attributes["src"].Value; 
    } 
} 

내가이 문제를 방지 할 수있는 방법 어떤 아이디어?

고맙습니다. 귀하의 코드는 아마 이상한 일을하고있다

+1

파싱하려는 전체 문서를 제공해 주시겠습니까? 'img'만있는 문서에서 코드를 테스트하면 HAP이 URL을 완벽하게 반환합니다. –

답변

0

, 다음 작품 벌금 때문에 :

HtmlDocument doc = new HtmlDocument(); 
    doc.LoadHtml("<img border='0' title='Kommunelogo' alt='Kommunelogo' style='margin-top: 5px;' src='http://livskraftig.bedrekommune.no/more/reports/profilechart.jsp?legend=Y&graphtype=xy&profileid=19433213274429306&element=72&addyears=true' />"); 
    doc.Save(Console.Out); 

당신은 생식이 있습니까?

+0

일부 코드가 수정되고 추가되었습니다. 감사! –

관련 문제