2016-12-27 1 views
-3

wikipedia에서 무작위 기사를 다운로드 (예 : 1000)하고 나중에 HTML 애자 팩을 사용하여 html 파일/문자열을 제거하여 모든 html/scripts 태그를 제거하십시오. 어떻게 다운로드 할 수 있습니까? 이 라이브러리는 www에서 기사를 다운로드 할 수있는 도구가 있습니까? 도움을 주셔서 감사합니다사이트에서 기사를 다운로드하려면 어떻게해야합니까?

답변

1

사용은 WebClient을 사용할 수 있습니다. 예를 들어 :

var site = new System.Net.WebClient().DownloadString("http://google.com"); 
+0

예를,하지만 난 위키 피 디아에서 1,000 기사를 다운로드해야합니다. 예 : URL : https://en.wikipedia.org/wiki/Sport 에서 기사를 다운로드해야하며 다음 사이트에서 기사를 다운로드해야합니다. https://en.wikipedia.org/wiki/Basketball 무작위 1000 개 . – srzeppa

0

당신은 위키 피 디아 1000 개 URL을 잡고 HtmlAgilityPack이 HtmlWeb 사용하는 크롤러 도구를 작성할 수 있습니다

string Url = "http://something"; 
HtmlWeb web = new HtmlWeb(); 
HtmlDocument doc = web.Load(Url); 
관련 문제