2013-08-15 5 views
2

주어진 URL로 웹 사이트 스크랩을 스크리닝해야합니다. http://cks.nice.org.uk/?char=B 페이지의 내용을로드하려고하면 div 안에 class = "list-wrapper"라는 링크 (앵커 요소)를 제외한 모든 내용 (doc 객체)이 표시됩니다.htmlagilitypack 페이지의 전체 내용을로드하지 않습니다.

아이디어가 있습니까? 감사

using System; 
using HtmlAgilityPack; 

public partial class _Default : System.Web.UI.Page 
{ 

protected void Page_Load(object sender, EventArgs e) 
{ 
    HtmlWeb web = new HtmlWeb(); 
    HtmlDocument doc = null; 
    doc = web.Load("http://cks.nice.org.uk/?char=B"); 
} 

}

+1

페이지를 잠깐 살펴 보았습니다. 페이지가로드되는 동안 또는 이후에 동적 인 JavaScript가 추가 된 것처럼 보입니다. 동적 인 요소를 어떻게 가져올 지 확신 할 수 없습니다. –

+0

코멘트 크리스에게 감사드립니다. 나는 네가 옳다고 생각하지만, 내가 찾는 비트를로드하는 방법을 알려줄 수 있는지 궁금해한다. – rumi

+0

당신은 길을 찾았나요? 나는 같은 문제가있다. –

답변

0

나는 일반적으로 HtmlAgilityPack 또는 C 번호에 익숙하지 않은,하지만 난 내가 할 거라고 무엇을 긁어 관점에서 말할 수 있습니다.

얻을 수있는 문서는 주제 이름과 URL의 멋진 JSON 구조를 제공하는 http://cks.nice.org.uk/js/topics.txt입니다. 그 구문 분석, 당신은 같은 객체의 배열 볼 수 있습니다 :

{"Title":"Achilles tendinopathy","Slug":"achilles-tendinopathy","Specialities":["Injuries","Musculoskeletal"]}, 
{"Title":"Acne vulgaris","Slug":"acne-vulgaris","Specialities":["Skin and nail"]} 

각에서 "슬러그"을 가지고, 예를 들어, 각 주제 페이지를 얻을 수있는 기본 URL에 추가를 http://cks.nice.org.uk/achilles-tendinopathy

관련 문제