나는 BeautifulSoup로 웹 사이트를 긁어 내려고하고있다. 문제의 사이트에 로그인해야합니다. 제 코드를 살펴보십시오. 로그인해야하는 웹 사이트 스크랩
from bs4 import BeautifulSoup as bs
import requests
import sys
user = 'user'
password = 'pass'
# Url to login page
url = 'main url'
# Starts a session
session = requests.session(config={'verbose': sys.stderr})
login_data = {
'loginuser': user,
'loginpswd': password,
'submit': 'login',
}
r = session.post(url, data=login_data)
# Accessing a page to scrape
r = session.get('specific url')
soup = bs(r.content)
나는 나는 그것이 유효해야합니다 생각하지만, 내가 로그 아웃 된 것처럼 인쇄 된 내용이 여전히 SO 그래서에서, 여기에 몇 가지 스레드를 본 후에이 코드를 함께했다.
나는이 코드를 실행
,이 인쇄됩니다 :2013-05-10T22:49:45.882000 POST >the main url to login<
2013-05-10T22:49:46.676000 GET >error page of the main url page as if the logging in failed<
2013-05-10T22:49:46.761000 GET >the specific url<
물론, 로그인 정보가 정확합니다. 도움 사람이 필요합니다.
@EDIT
어떻게 위로 헤더를 구현하는 것이?
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]