2013-11-09 4 views
2

다음 사이트를 가지고 있습니다 http://www.asd.com.tr. 모든 PDF 파일을 하나의 디렉토리에 다운로드하고 싶습니다. 나는 두 개의 명령을 시도했지만 많은 운이 없다.wget을 사용하여 모든 pdf 파일 다운로드

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/ 

이 코드를 사용하면 4 개의 PDF 파일 만 다운로드됩니다. 이 링크를 확인, 수천 개의 PDF 파일을 통해 사용할 수있다 :

, 수백 개의 파일은 다음 폴더에 있습니다

그러나 나는 그들을보고 다운로드하기 위해 올바르게 액세스하는 방법을 알아낼 수 없다. 이 하위 디렉토리에있는 일부 폴더는 http://www.asd.com.tr/Folders/이며이 폴더에 수천 개의 PDF가 있습니다.

-m 명령을 사용하여 사이트 미러링을 시도했지만 실패했습니다.

더 이상의 제안 사항이 있으십니까?

+0

왜 펄의 모듈 WWW::Mechanize 온다? 어쨌든 온라인에서 무료로 구할 수있는 수천 통의 터키 정부 PDF 파일을 어떻게 사용할 수 있습니까? –

+0

나는 wget에 대한 예제를 만들려고 노력 중이며 나는 터키인이며이 사이트는 매우 인기가있다. 바로 그 것이다. 불쾌한 형제 .. –

답변

8

먼저 웹 사이트의 서비스 약관이이를 크롤링 할 수 있는지 확인하십시오. 그런 다음, 하나 개의 솔루션은 다음과 같습니다

mech-dump --links 'http://domain.com' | 
    grep pdf$ | 
    sed 's/\s+/%20/g' | 
    xargs -I% wget http://domain.com/% 

mech-dump 명령 (좋아하는 배포판 데비안 & 데비안에 libwww-mechanize-perl 패키지)

+0

+1 아주 좋은 해결책! – slm

관련 문제