내가 웹 페이지의 html 소스 코드를 추출하기 위해이 코드를 사용 :이 페이지의 소스 코드를 추출하기 위해이 코드를 사용 후추출 HTML 소스
private static string GetWebText(string url)
{
HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
request.UserAgent = "A .NET Web Crawler";
WebResponse response = request.GetResponse();
Stream stream = response.GetResponseStream();
StreamReader reader = new StreamReader(stream);
string htmlText = reader.ReadToEnd();
return htmlText;
}
을 (==> 추출하는 HREF) : 는 "비용 최적화 고문"
은 다음과 같습니다
난 내 HTML 소스 코드를 가지고http://www.bayt.com/en/qatar/jobs/
, 나는 같은 콘텐츠를 많이 찾을 수 없습니다 그것은 서버 측에서 콘텐츠를 생성했기 때문입니까?
서버 측에서 생성 된 콘텐츠가 포함 된 HTML 소스 코드가 포함되도록 코드를 어떻게 변경합니까?
에 사용자 에이전트를 설정하려고? 그들과 법적 계약을 맺고 있는지 확인하십시오. 가지고있는 경우, XML과 같은보다 간단한 형식으로 내용을 내보낼 것을 요청할 수 있습니다. AJAX를 사용하여 내용을 비동기 적으로로드하는 경우 문제가 될 수 있습니다. – BerggreenDK
BerggreenDK 감사합니다. "소스 코드 표시"를 수행하면 모든 컨텐츠를 얻을 수 있습니까? –
DOM 버전을 파싱하지 못하셨습니까? 모든 스크립트가 실행 된 후에 컴파일 된 것을 포함하는 것입니다. – BerggreenDK