2011-04-06 8 views
-1

C# 또는 VB.NET을 사용하여 웹 사이트를 크롤링하고 싶습니다. 크롤러가 웹 페이지에서 URL을 추출하고 크롤러가 URL을 따라 웹 사이트에서 모든 URL을 추출 할 수있게하고 싶습니다.전체 웹 사이트에서 전체 URL 추출

어떻게 작성할 수 있습니까?

+0

나는 C++의 클래스에 대한 이런 짓을 긁어 시작하기 전에

은 또한, 약 robots.txt을 읽어 보시기 바랍니다, 그것을 구현하기 너무 어렵지 않았다. 원한다면 모든 코드가 오픈 소스입니다. – tjameson

+0

다음은 몇 가지 예입니다. [웹 크롤러 1] (http://www.codeproject.com/KB/IP/Crawler.aspx) [웹 크롤러 2] (http://social.msdn.microsoft.com/forums/en-US/csharpgeneral/ 스레드/8fecf702-04d9-4ee8-854e-0a31b3c01176) – Jethro

+0

링크가 작동하지 않습니다 ... – tjameson

답변

1

이 경우 웹 사이트는 무엇입니까?

로컬 가상 디렉터리? 정적 웹 페이지입니까? 동적 페이지는 어딘가에서 호스팅됩니까?

wget --mirror 

에서

봐는 컬도 여기에 옵션이있을 수 있습니다. 당신이 그물 :

관련 문제