2017-02-12 1 views
0

모든 사이트 콘텐츠를 다운로드 한 다음 "* .pdf"파일에 대해 다운로드 한 폴더를 구문 분석해야합니다. 나는 wget -r --no-parent http://www.example.com/를 사용하여 사이트를 다운로드하고 그러나 문제는이처럼 보이지 않는, 때로는 링크가 지정되지 않고 파일 형식 "= K20 f를? dpubs"이Wget 파일 형식

http://www.foodmanufuture.eu/dpubs?f=K20 

과 dowloaded PDF는 이름으로 다운로드를 보이는 것입니다 "dpubs? f = K20.pdf",이 폴더에있는 pdf 파일의 수를 확인하는 방법이 있습니까?

답변

0

는 명령이 같이

file filename 

을 사용할 수

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5 

당신은 사용할 수 있습니다

file * 

정확히 폴더에있는 파일을 PDF 파일 알고하기 위해

1

--content-disposition 플래그를 사용해 보셨습니까? 맨 페이지에서 :

"켜기"로 설정하면 "Content-Disposition"헤더에 대한 실험적 (완전 기능 아님) 지원이 활성화됩니다. 이것은 현재 "HEAD"요청에 대해 서버에 추가 왕복을 초래할 수 있으며, 몇 가지 버그가있는 것으로 알려져 있습니다. 이것이 현재 기본적으로 사용되지 않는 이유입니다. 이 옵션은 "Content-Disposition"헤더를 사용하여 다운로드 한 파일 이름을으로 설명하는 일부 파일 다운로드 CGI 프로그램에 유용합니다.

그래서 서버에 파일 이름을 묻습니다. 나는 당신이 준 URL을 위해 그것을 시도했고 그것은 작동하는 것처럼 보였다.

+0

대단원! 고맙습니다! –