HAP을 사용하여 HTML 문서를 구문 분석 할 때 이미지의 src 속성에 문제가 있습니다.이미지의 src 속성에 params가있는 긴 URL을 구문 분석하는 HTML 민첩성 팩
<img border='0' title='Kommunelogo' alt='Kommunelogo' style='margin-top: 5px;' src='http://livskraftig.bedrekommune.no/more/reports/profilechart.jsp?legend=Y&graphtype=xy&profileid=19433213274429306&element=72&addyears=true' />
는 다음 HAP이 같은 이미지를 구문 분석 : 그것은 우연처럼 보이는 <img border='0' title='Kommunelogo' alt='Kommunelogo' style='margin-top: 5px;' src='http://livskraftig.bedrekommune.no/more/reports/profilechart.jsp?legend="Y"&amp;graphtype="xy"&amp;profileid="19433213274429306"&amp;element="72"&amp;addyears="tru"e'/>
그들이 속성입니다 생각하고 PARAMS을 분할 아이디의 src 속성 값은 매개 변수, 예를 가진 긴 URL입니다.
내 코드 :
HtmlDocument doc = new HtmlDocument();
doc.OptionOutputAsXml = true;
doc.OptionAutoCloseOnEnd = true;
doc.OptionFixNestedTags = true;
doc.LoadHtml(input_which_is_a_whole_html_file);
HtmlAgilityPack.HtmlNodeCollection imageNodes = doc.DocumentNode.SelectNodes("//img");
if (imageNodes != null)
{
foreach (HtmlAgilityPack.HtmlNode imgNode in imageNodes)
{
string imgSrc = imgNode.Attributes["src"].Value;
}
}
내가이 문제를 방지 할 수있는 방법 어떤 아이디어?
고맙습니다. 귀하의 코드는 아마 이상한 일을하고있다
파싱하려는 전체 문서를 제공해 주시겠습니까? 'img'만있는 문서에서 코드를 테스트하면 HAP이 URL을 완벽하게 반환합니다. –