2011-02-23 2 views
3

wget을 사용하여 거대한 웹 페이지 목록 (약 70,000 개)을 다운로드하고 있습니다. 연속 wget 사이에 2 초 정도의 잠자기를 강요합니다. 시간이 많이 걸립니다. 70 일이 필요합니다. 내가하고 싶은 것은 프록시를 사용하여 프로세스 속도를 크게 높일 수 있습니다.이 프로세스를위한 간단한 bash 스크립트를 사용하고 있습니다. 제안 및 의견을 보내 주시면 감사하겠습니다.wget을 사용하여 웹 스크 레이 핑 최적화

답변

3

첫 번째 제안은 Bash 또는 wget을 사용하지 않는 것입니다. 나는 Python과 Beautiful Soup을 사용할 것이다. Wget은 스크린 스크래핑을 위해 실제로 설계되지 않았습니다.

두 번째 조사는 각 컴퓨터에서 목록의 일부를 실행하여 여러 컴퓨터에 걸쳐로드를 분산시킵니다.

대역폭과 같은 것으로 들리므로 일부 클라우드 이미지를 쉽게 생성하고 해당 사용자에게 스크립트를 보낼 수 있습니다.

+0

나는 아름다운 스프를 다운로드했다. 나는 그것이 필요하지 않다고 생각한다. 내 병 목이 내 컴퓨터에 웹 페이지를 다운로드하고있다. 페이지가 생기면 나는 grep 명령으로 원하는 정보를 추출 할 수있다. 나는 그렇다. PC에 웹 페이지를 가져 오는 데 필요한 실제 라이브러리를 최적화하는 라이브러리가 있습니다. 대역폭은 내 문제가 아닙니다. 현재 문제를 일으키는 문제는 아니지만. 내가 속한 사이트입니다. 스크래핑은 어떻게 든 DoS로부터 보호됩니다 (따라서 나는 기다릴 수밖에 없습니다). 여러 대의 컴퓨터 또는 클라우드에 배포하는 것을 생각할 수 있습니다. – liv2hak

+0

그럼 파이썬을 권유 한 또 다른 이유는 프로세스를 계속 실행하고 연결을 재현 할 필요가 없기 때문입니다. 파이썬 스크립트는 연결을 재사용 할 수있어 서버가 더 유용 할 수 있습니다. ... 나는 당신이 나쁜 일을하지 않기를 바란다 :) –

+0

감사합니다. 파이썬으로 파고들 것입니다. 그리고 아닙니다. 나는 당신이 생각하는 것을하지 않습니다. :) – liv2hak

관련 문제