3
wget을 사용하여 거대한 웹 페이지 목록 (약 70,000 개)을 다운로드하고 있습니다. 연속 wget 사이에 2 초 정도의 잠자기를 강요합니다. 시간이 많이 걸립니다. 70 일이 필요합니다. 내가하고 싶은 것은 프록시를 사용하여 프로세스 속도를 크게 높일 수 있습니다.이 프로세스를위한 간단한 bash 스크립트를 사용하고 있습니다. 제안 및 의견을 보내 주시면 감사하겠습니다.wget을 사용하여 웹 스크 레이 핑 최적화
나는 아름다운 스프를 다운로드했다. 나는 그것이 필요하지 않다고 생각한다. 내 병 목이 내 컴퓨터에 웹 페이지를 다운로드하고있다. 페이지가 생기면 나는 grep 명령으로 원하는 정보를 추출 할 수있다. 나는 그렇다. PC에 웹 페이지를 가져 오는 데 필요한 실제 라이브러리를 최적화하는 라이브러리가 있습니다. 대역폭은 내 문제가 아닙니다. 현재 문제를 일으키는 문제는 아니지만. 내가 속한 사이트입니다. 스크래핑은 어떻게 든 DoS로부터 보호됩니다 (따라서 나는 기다릴 수밖에 없습니다). 여러 대의 컴퓨터 또는 클라우드에 배포하는 것을 생각할 수 있습니다. – liv2hak
그럼 파이썬을 권유 한 또 다른 이유는 프로세스를 계속 실행하고 연결을 재현 할 필요가 없기 때문입니다. 파이썬 스크립트는 연결을 재사용 할 수있어 서버가 더 유용 할 수 있습니다. ... 나는 당신이 나쁜 일을하지 않기를 바란다 :) –
감사합니다. 파이썬으로 파고들 것입니다. 그리고 아닙니다. 나는 당신이 생각하는 것을하지 않습니다. :) – liv2hak