저는 종종 아주 큰 웹 사이트를 미러링하기 위해 wget을 사용합니다. 내가 wget이 다른 호스트에있는 페이지 요구 사항을 포착하도록 지정하지 못했기 때문에 핫 링크 된 콘텐츠가 포함 된 사이트 (이미지, 비디오, CSS, j)가 문제가됩니다. 호스트. hotlinked 된 것을 포함하여 -핫 링크 된 조건을 가진 재귀 wget
예를 들어, https://dl.dropbox.com/u/11471672/wget-all-the-things.html
이의이 내가 모든 페이지 요건을 포함하여, 완전히 거울을 부탁 큰 사이트입니다 척하자이 페이지를 살펴 보자. 전체 웹
wget -e robots=off -r -l inf -pk -H --ignore-tags=a
에게 다운로드 진행
wget -e robots=off -r -l inf -pk -H
^^이 hotlinked 이미지를 포함한 모든 것을 얻는 hotlinked 이미지를 제외한 모든 것을 얻을 수 있지만, 격렬하게 통제를 벗어나 ^^
wget -e robots=off -r -l inf -pk
,
^^ 첫 페이지가 핫 링크 및 로컬 이미지를 포함하여 스코프 외부의 사이트에 대한 하이퍼 링크를 따르지 않지만 다음 페이지의 하이퍼 링크를 따라 가지 않습니다. 사이트.
나는 이것을 수행하는 다양한 도구와 방법이 있다는 것을 알고있다. (HTTrack과 Heritrix는 다른 호스트의 hotlinked 컨텐츠와 다른 호스트의 하이퍼 링크를 구별 할 수있다.) 그러나 나는 이것을보고 싶다. wget으로 가능합니다. 이상적으로 외부 컨텐트, 요청 및 헤더를 출력 할 WARC 파일에 포함 시키려면 사후 처리에서이 작업을 수행하지 마십시오.