2014-05-21 5 views
2

웹 페이지를 파일에 저장하고 싶습니다. 주소는 내가 wget과 컬을 시도주소가 .aspx 인 파일에 웹 페이지를 저장하는 방법

http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=487319

처럼, 그들은 '더 일치를 찾을 수 없습니다'라고.

나는 이와 비슷한 많은 페이지를 저장하기 위해 다음과 같은 python 스크립트를 작성하고 싶습니다.

foreach prop_id in range(400000, 410000): 
    cmd = 'wget http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id={} > {}.txt'.format(prop_id, prop_id) 
    os.system(cmd) 

배경 : 가 내 재산세 시위에 대한 사례를 구축하기 위해 감정 평가 값을 구문 분석 할 필요가있다. 샘플을 수집하기 위해 수동으로 물건을 클릭하는 것은 너무 많은 시간을 소비합니다!

+0

링크가 브라우저 외부에서 작동하지 않는 것처럼 보입니다. – Min

답변

1

가장 쉬운 방법은 requests 라이브러리를 사용하는 것입니다. 먼저 우리는 세션 ID를 얻어야합니다 (홈 페이지를 방문한 후에 쿠키에 저장됩니다). 그런 다음 이러한 쿠키 (세션 ID)를 사용하여 페이지를 다운로드 할 수 있습니다.

import requests 

session = requests.Session() 

#Get session cookies (session ID) 
index_url = 'http://propaccess.traviscad.org/clientdb/?cid=1' 
index_request = session.get(index_url) 
session_cookies = index_request.cookies 

#Download pages 
for prop_id in range(400000, 410001): 
    url = 'http://propaccess.traviscad.org/clientdb/Property.aspx?prop_id=%s' % prop_id 
    r = session.get(url,cookies = session_cookies) 
    print r.text #r.text contains page content 

페이지 콘텐츠는 r.text입니다.

+0

고마워요! 요청 라이브러리로 많은 일을 할 수있는 것 같습니다. – Min

관련 문제