2011-02-08 7 views
1

저는 아주 새로운 프로그래머입니다. 웹 사이트에서 필요한 많은 zip 파일을 제공하고 있습니다. 매주 새로운 zip 파일을 업데이트/업로드합니다. 내가해야 할 일은 웹에서 주간 자동 다운로드를하는 프로그램/스크립트를 작성하는 것입니다. 예를 들어 웹 링크 http://www.google.com/googlebooks/uspto-patents-applications-yellowbook.html (많은 압축 파일을 볼 수 있습니다)특정 웹 사이트에서 자동으로 파일 다운로드

제 질문은

입니다.
  1. 어떤 스크립트를 작성해야합니까 (어떤 스크립트를 작성해도 아무런 경험이 없으므로 무엇을 제안 할 수 있습니까?) 그래서 프로그래밍 방식으로 zip 파일을 다운로드 할 수 있습니까?

  2. 첫 번째 질문이 해결되면 매주 업로드되는 새 zip 파일을 어떻게 다운로드해야합니까?

DOM ... 유닉스를 사용해야합니까? 만약 그렇다면, 나는 그것을 작동 시키도록 tat에 대한 연구를 할 것입니다.

+0

Zip 파일의 이름이 매주 변경되거나 일정합니까? –

+0

DOM은 UNIX와 아무 관련이 없습니다. – DoctorLouie

+0

답장을 보내 셨고 drlouie 님과 Michael 님 ... http://www.google.com/googlebooks/uspto-patents-applications-yellowbook.html 링크로 볼 수 있습니다. 업로드 한 날짜를 기준으로 변경 될 수 있습니다 .. – DEN

답변

1

왜 wget입니까? HtmlAgilityPack을 사용하여 웹 사이트를 구문 분석하고 모든 링크를 추출 할 수 있습니다. 그런 다음 모든 URL을 반복하고 C#을 통해 파일을 다운로드하십시오. C#에서 wget 프로세스를 열 수도 있습니다.

반면에 이것은 bash 및 sed/awk와 greget을 wget과 함께 사용하여 쉽게 수행 할 수 있습니다.

어느 경우 든 매주 작업을 예약하려면 cron이 필요합니다.

WebClient Client = new WebClient(); 
Client.DownloadFile("http://www.csharpfriends.com/Members/index.aspx", "index.aspx"); 
+0

quandary, windows에서 cron을 사용할 수 있습니까? – DEN

+0

Windows 포트 (cronw.sourceforge.net)가 있습니다.하지만 Windows를 사용하고있을 때 Windows 스케줄러를 사용하지 않는 이유는 무엇입니까? –

0

Linux/UNIX의 경우 스크립트에서 'wget'을 사용하여 파일을 다운로드하고 'cron'을 사용하여 다운로드 스크립트를 예약하십시오.

+0

이름이 매주 변경됩니다. 화면 긁기는 링크 목록을 얻지 못하게 할 것입니까? –

+0

예, 맞습니다. wget은 여전히 ​​작동 할 수 있습니까? – DEN

+0

먼저 'wget'할 URL 목록을 만들어야합니다. –

1

나는 또한 웹 페이지에서 데이터를 긁어 자바/스칼라 애플리케이션에 매우 효과적으로 JSoup (http://jsoup.org/)를 사용했습니다.

관련 문제