2014-10-01 4 views
0

웹 페이지를 크롤링하는 데 아무런 문제가 없습니다. 하지만이 URL을 고치기 시작했을 때 bse insider trading크롤링 중 이상한 오류가 발생했습니다.

매우 이상한 오류가 나타납니다.

이 페이지에 대한 세부 정보가 없습니다. 이 페이지는 인도 시장을위한 하나의 중요한 교류에 속합니다. 이 페이지가로드되면 기본적으로 최근 내부자 거래 정보가 표시됩니다. 날짜를 선택하고 제출하면 게시물 요청이 이루어지고 데이터가 표시됩니다. 물론 데이터는 여러 페이지에 걸쳐 있습니다.

사용자 정의 날짜가있는 적절한 게시물 데이터를 보내면 page$2에 대한 상태 코드가 표시됩니다. 이는 페이지 2에 정보가 필요하다는 것을 의미하며 나머지 페이지는 모두 정상적으로 반환됩니다. 나는이 post 변수를 urlencode하려고 시도했지만 무작위로 시도했지만 운이 없었다. 이 사건이 당신에게도 해당되는지 누군가 확인하십시오.

여기 긁어 파이썬, 요청, LXML를 사용하고있어 내 코드의

import requests 
from lxml import html 
import urllib 

url = "http://www.bseindia.com/corporates/Insider_Trading.aspx?expandable=0" 
data = {'ctl00$ContentPlaceHolder1$GetQuote1$smartSearch':'Enter Scrip Name/Code/ID','ctl00$ContentPlaceHolder1$GetQuote1$hdnCode':'','WINDOW_NAMER':'1','__EVENTTARGET':'ctl00$ContentPlaceHolder1$gvData','__EVENTARGUMENT':'Page$2', 'ctl00$ContentPlaceHolder1$fmdate':'20140923', 'ctl00$ContentPlaceHolder1$eddate':'20140929', 'ctl00$ContentPlaceHolder1$txtDate':'01/01/2014', 'ctl00$ContentPlaceHolder1$txtTodate':'29/09/2014', 'ctl00$ContentPlaceHolder1$GetQuote1$hdnCode':'', 'ctl00$ContentPlaceHolder1$ddlregulation':'ALL', '__VIEWSTATE':'', '__EVENTVALIDATION':'/wEWGQLoxuedDgKJsYefCgK6rpDlDwL8np6XAwLl44LQAgK0w8TlCwKHlNXODQKW0sv1BgLei4rQAwKExL/8BQLJsJHgCQLhsb3hCQLJsLmaCAL40JWiCgK9vIn8DAKN+qTQCAKN+qzQCAKN+rjQCAKN+rTQCAKN+qDQCAKN+rzQCAKN+ojQCAKN+oTQCALj8ODgCQKI2cKdDA=='} 
cookies = {'_gat':'1', 'expandable':'0c', '_asc':'099bb6b2148be3ebcdb9a1f31af', '__auc':'70dfa206148b7750a132dbe342b', '_ga':'GA1.2.35458869.1411827174'} 

headers = {'Referer':'http://www.bseindia.com/corporates/Insider_Trading.aspx?expandable=0', 'Orgin':'http://www.bseindia.com', 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36'} 

for i in range(1,10): 
    data['__EVENTARGUMENT'] = ('Page$'+str(i)) 
    print data['__EVENTARGUMENT'] 
    r = requests.post(url, data=data, cookies=cookies); 
    if r.status_code != 200: 
     print r.reason 
     print i 
    root = html.fromstring(r.text) 
    a = root.xpath('//*[@id="ctl00_ContentPlaceHolder1_gvData"]/tr') 
    for b in a[2:-1]: 
     #print b.findall('td')[1].text_content() 
     pass 

답변

0

대신, 요청 매개 변수를 하드 코딩 페이지에서 구문 분석의 다음 페이지 매김 따르

import re 

from lxml import html 
import requests 


def get_data(tree): 
    for row in tree.xpath('//tr[@class="TTRow"]/td[1]'): 
     print row.text 


url = "http://www.bseindia.com/corporates/Insider_Trading.aspx?expandable=0" 
headers = {'Referer': 'http://www.bseindia.com/corporates/Insider_Trading.aspx?expandable=0', 
      'Origin': 'http://www.bseindia.com', 
      'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36', 
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'} 


# start session 
session = requests.Session() 

# get the main page 
response = session.get('http://www.bseindia.com/corporates/Insider_Trading.aspx?expandable=0', headers=headers) 
root = html.fromstring(response.content) 

# since this is the first page - parse the data 
print "PAGE 1" 
get_data(root) 
print "------" 

data = { 
    'ctl00$ContentPlaceHolder1$GetQuote1$smartSearch': 'Enter Scrip Name/Code/ID', 
    'ctl00$ContentPlaceHolder1$fmdate': '20140923', 
    'ctl00$ContentPlaceHolder1$eddate': '20140929', 
    'ctl00$ContentPlaceHolder1$txtDate': '', 
    'ctl00$ContentPlaceHolder1$txtTodate': '', 
    'ctl00$ContentPlaceHolder1$GetQuote1$hdnCode': '', 
    'ctl00$ContentPlaceHolder1$ddlregulation': 'ALL', 

    'myDestination': '#', 
    'WINDOW_NAMER': '1', 

    '__VIEWSTATE': root.find('.//input[@id="__VIEWSTATE"]').attrib['value'], 
    '__EVENTVALIDATION': root.find('.//input[@id="__EVENTVALIDATION"]').attrib['value'] 
} 

pattern = re.compile("javascript:__doPostBack\('(.*?)','(.*?)'\)") 
for index, row in enumerate(root.xpath('//tr[@class="pgr"]//td/a'), start=2): 
    print "PAGE %d" % index 

    target, argument = pattern.search(row.attrib['href']).groups() 
    data['__EVENTTARGET'] = target 
    data['__EVENTARGUMENT'] = argument 

    response = session.post(url, data=data, headers=headers) 
    root = html.fromstring(response.content) 
    get_data(root) 
    print "------" 

을 인쇄 (각 페이지의 첫 번째 열 내용) :

PAGE 1 
531807 
532706 
532959 
531807 
532840 
533400 
536507 
533400 
533304 
506395 
506395 
507717 
507717 
506395 
506395 
506395 
506395 
531807 
512393 
532268 
532466 
532689 
532689 
532706 
532706 
------ 
PAGE 2 
500228 
500246 
508969 
508969 
531802 
532532 
532532 
532832 
532832 
500228 
508969 
508969 
531802 
500124 
500124 
511243 
512393 
512393 
512393 
512393 
512393 
512393 
512393 
512393 
512393 
------ 
PAGE 3 
512393 
512393 
532466 
532508 
532799 
532799 
532799 
532799 
532799 
532799 
532799 
532799 
502355 
502355 
502355 
501700 
501700 
500247 
500247 
500875 
506615 
500247 
500875 
500875 
500875 
------ 
PAGE 4 
523838 
523838 
500875 
511503 
511503 
511503 
506615 
506615 
506615 
506615 
506615 
506615 
506615 
506615 
506615 
506615 
511503 
511503 
511503 
506395 
506395 
524348 
506685 
506685 
506685 
------ 
PAGE 5 
506685 
------ 
+0

여기서 'ctl00 $ ContentPlaceHolder1 $ txtDate'를 (를) 설정하고 있습니까? –

+0

@Napster 확실히, 나는 그것에 약간의 노력을했습니다. 몇 가지 시도했지만, 페이지에서'__ *'매개 변수를 가져 오기 시작한 직후 문제는 해결되었습니다 - 모든 페이지에 대해 200 점을 얻었습니다. – alecxe

+0

@Napster 이것은 브라우저 개발자 도구에서'ctl00 $ ContentPlaceHolder1 $ txtDate'가 빈 문자열로 설정되어 있기 때문에 발생합니다. 나는 당신이 생각하는 바를 여기서 바꿀 수 있다고 생각합니다. – alecxe

관련 문제