다음을 기반으로 기본 HTML 페이지에서 데이터를 가져 오는 스크립트를 작성하고 있습니다.여러 URL에서 파이썬의 HTML 파일을 읽으려면 어떻게해야합니까?
URL의 첫 번째 매개 변수는 -90.0에서 90.0 사이에 떠 있고 두 번째 숫자 세트는 - 180.0 및 180.0 (포함). URL을 통해 페이지의 본문으로 단일 번호가있는 하나의 페이지로 이동합니다 (예 : http://jawbone-virality.herokuapp.com/scanner/desert/-89.7/131.56/). URL에 첨부 된 모든 페이지 사이에서 가장 큰 바이럴 번호를 찾아야합니다.
그래서 지금은 첫 번째와 두 번째 숫자뿐만 아니라 본문의 번호 (우리는 그것을 virality라고 부름)를 인쇄합니다. 그것은 단지 콘솔에 출력하는 것이므로, 파일에 쓰려고 할 때마다 나에게 spazz하고 오류가 발생합니다. 어떤 힌트 나 내가 놓친 거있어? 나는 파이썬에 아주 익숙해서 무언가 또는 무엇인가를 놓치고 있는지 확신 할 수 없다.
import shutil
import os
import time
import datetime
import math
import urllib
from array import array
myFile = open('test.html','w')
m = 5
for x in range(-900,900,1):
for y in range(-1800,1800,1):
filehandle = urllib.urlopen('http://jawbone-virality.herokuapp.com/scanner/desert/'+str(x/10)+'/'+str(y/10)+'/')
print 'Planet Desert: (' + str(x/10) +','+ str(y/10) + '), Virality: ' + filehandle.readlines()[0] #lines
#myFile.write('Planet Desert: (' + str(x/10) +','+ str(y/10) + '), Virality: ' + filehandle.readlines()[0])
myFile.close()
filehandle.close()
고맙습니다!
무슨 오류가 있습니까? –
약간 주제에서 벗어나지 만이 코드는 약 650 만 건의 HTTP 요청을 처리합니다. 그렇다면 Queue와 함께 멀티 스레드 방식을 사용하는 것이 더 나을 것입니다. http://docs.python.org/2/library/queue.html#module-Queue –
[Scrapy] (http : // scrapy.org/)이 문제에 대해 (이미 내 경험에 쓰여 있음). – Aufziehvogel