2012-05-31 4 views
3

나는이 페이지 해당 디렉토리 아래의 모든 이미지 나 스크립트를 다운로드 않습니다wget을 다운로드

wget -p -k www.myspace.com/ 

다음 명령을 사용하여 전체 웹 페이지를 다운로드하기 위해 노력하고있어,하지만 난 노력하고있어 완전 오프라인보기를 위해 해당 페이지를 다운로드하는 방법을 알아보십시오. 외부 링크를 포함하여 www.myspace.com의 소스 내에서 연결된 모든 이미지, 스크립트 및 스타일 시트를 어떻게 얻을 수 있습니까? 나를 위해

+0

대규모 하드 드라이브가 있기를 바랍니다. myspace.com은 정확히 작은 사이트가 아닙니다. – Corbin

+0

나는 재귀적인 것이 아니기 때문에 나는 -r 또는 -m을 갖고 있지 않다. 모든 외부 콘텐츠 참조의 오프라인 버전을 포함하여 해당 페이지의 미러를 원합니다. 또한 그것은 myspace가 아니며, 이미지 용 외부 참조가 있으므로 예제로 사용했습니다. – brandon

답변

8
wget -e robots=off -H -p -k http://www.myspace.com/ 

을 -h 또는 --span - 호스트 플래그는, 완전한 거울 필요합니다. 좋은 측정을 위해 로봇을 무시하십시오.

+1

-H는 모두 누락되었습니다. 고마워. – brandon

+0

나는 이것이 매우 오래되었음을 안다. 그러나 나는 오늘 그것이 도움이된다는 것을 알았고, 당신이 [-D와 함께 스패닝하는 것을 제한 할 필요가있다]라고 덧붙이겠다고 생각했다. (https://www.gnu.org/software/wget/ manual/html_node/Spanning-Hosts.html) 원치 않는 파일을 잡는 것을 피하십시오 – jbll

-1

wget -mk http://www.myspace.com/

작품. 나는 myspace 또는 당신이 특별히 비추고 자하는 어떤 사이트에 대해 확신하지 못하지만, 때로는 no-robots 정책을 해결하기 위해 다른 옵션을 전달해야합니다. 나는 당신이하지 말아야 할 일을하고 있다는 것을 의미하기 때문에 그렇게하는 법을 말하지 않을 것입니다. 분명히 가능하지만. 페이지가 www.myspace.com 도메인 외부 호스트의 콘텐츠를 포함 할 가능성이로

+0

전체 사이트를 미러링하지 않습니다. 모든 외부 콘텐츠 참조의 오프라인 버전을 포함하여 해당 페이지의 미러를 원합니다. 로봇을 무시하는 방법을 알고 있지만, 크롤링하는 사이트에는 wget에 대한 로봇 정책이 없습니다. – brandon

관련 문제