웹 사이트에서 Gbs 데이터를 다운로드하는 작업이 있습니다. 데이터는 .gz 파일 형식이며 각 파일의 크기는 45MB입니다.wget Vs urlretrieve of python
"wget -r -np -A files url"을 사용하면 파일을 쉽게 얻을 수 있습니다. 이렇게하면 재귀 적 형식으로 데이터를 가져 오지 않고 웹 사이트를 반영합니다. 부하가 걸리는 속도는 4mb/sec로 매우 높습니다.
하지만 주위를 놀기 위해서도 파이썬을 사용하여 urlparser를 빌드하고있었습니다.
Python의 urlretrieve를 통해 다운로드하는 것은 천천히, 가능한 wget만큼 느리게 4 배입니다. 다운로드 속도는 500kb/초입니다. href 태그를 구문 분석하기 위해 HTMLParser를 사용합니다.
왜 이런 일이 발생하는지 잘 모르겠습니다. 이에 대한 설정이 있습니까?
감사합니다.
CPU 사용량과 tcpdump 출력을 비교해 보셨습니까? –
tcpdump 무엇입니까? 그것을 얻는 방법? –
전송 속도 (메가 바이트/메가 바이트/메가 비트/메가 바이트는 완전히 다릅니다!)를 무시하고 'time wget http : // example.com/file' 및'time python urlretrieve_downloader.py' 명령을 사용하여 두 가지를 비교합니다. – dbr