2017-04-13 5 views
1

내가 파이썬 3에서 다음 페이지의 HTML 데이터를 읽으려고 해요 :파이썬에서 제대로 HTML 데이터를 읽을 수 없습니다 3

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx 

을하고 난이 방법으로 그것을하고 있어요 :

url=str(input('\n Paste URL here: '))  
url2=requests.get(url) 
html=url2.text 
print(html) 

하지만 오류 페이지의 내용을 반환합니다.

내가 당신이 웹 브라우저에서 동일한 오류 페이지가 발생할 수 있지만이를 방지 것을 추가하자 처음에는이 주소를 개방하면 해결됩니다

http://dl.nlai.ir/ui/forms/Index.aspx 

데이터를 정확히 읽을 수있는 당신의 추천 무엇입니까? 나는 원본 페이지에서 base64로 인코딩 된 문자열을 추출하는 페이지의 내용을 얻고 싶습니다.

+0

쿠키와 관련된 오류가있을 수 있습니다. 'Index.aspx' 페이지에 요청 해보고 헤더에서받은 쿠키를 파싱 한 다음'cookies = my_cookies '를 사용하여 요청을 전달하십시오. –

+0

저는 파이썬 초보자입니다. 어떻게 해야할지 모르겠습니다. 쿠키를 설정합니다. 더 자세히 설명해 주시겠습니까? 감사합니다 –

답변

1

먼저 "http://dl.nlai.ir/ui/forms/Index.aspx"을 방문하면 방문 "http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx"에 잘못된 html이 표시됩니다. 그래서 당신은 세션이 필요해 같아요,이 같은 URL을 얻을

s = requests.Session() 
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx' 
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx' 
s.get(url1) 
url2 = s.get(url) 
html = url2.text 
print(html) 
+0

고마워, 좋은 대답. 헤더를 설정해야했지만, "지원되지 않는 브라우저"와 관련된 오류가 표시되기 때문에. –

+0

몇 번 시도한 후 [내 IP 또는 세션 등]에 대한 액세스가 제한된 것처럼 보였고 "이 영역을 볼 수있는 권한이 없습니다"라는 페이지가 표시 되어도이 제한을 무시할 수 있습니까? –

+0

시도해보십시오. 헤더 정보를 추가하고 프록시 IP를 사용하십시오. 귀하의 IP는 사이트에 의해 금지 될 수 있습니다. – douglee

관련 문제