나는 160.000 개 이상의 URL로 된 파일을 가지고 있는데, 그 중 일부 정보를 긁어 내고 싶다. 스크립트는 다음과 같이 대략 같습니다 작동하지만, 아주, 아주 느린스크랩 160.000 페이지 - 너무 느리다
htmlfile = urllib2.urlopen(line)
htmltext = htmlfile.read()
regexName = '"></a>(.+?)</dd><dt>'
patternName = re.compile(regexName)
name = re.findall(patternName,htmltext)
if name:
text = name[0]
else:
text = 'unknown'
nf.write(text)
합니다. 모든 160.000 페이지를 긁는 데 4 일 이상 걸립니다. 속도를 높이려면 어떤 제안이 필요합니까?
를 사용하여 멀티 스레딩 또는 (https://github.com/kennethreitz/grequests) – Blender
또는 단편적인 사용 [grequests] 같은 비동기 HTTP 요청 라이브러리. http://scrapy.org/ – Darek
의견을 보내 주셔서 감사합니다. 그러나 나는 grequetsts 또는 치료법을 사용하는 방법을 모릅니다. 나는 거대한 파이썬 초보자입니다 ... – ticktack