는 나는이 스크립트를 사용하여 웹 페이지의 HTML을 얻을 수에 기록되고 필요로하는 웹 페이지의 HTML을 구문 분석하려고 해요 :Python : 로그인해야하는 웹 페이지의 HTML을 어떻게 구문 분석합니까? .
from urllib2 import urlopen
from BeautifulSoup import BeautifulSoup
import re
webpage = urlopen ('https://www.example.com')
soup = BeautifulSoup (webpage)
print soup
#This would print the source of example.com
을하지만 '웹 페이지의 소스를 얻으려고 노력 로그인하는 것이 더 어렵다는 것을 증명합니다. ('https://www.example.com')을 ('https : // user : [email protected]')으로 바꾸려고했지만 잘못된 URL 오류가 발생했습니다.
누구든지이 작업을 수행 할 수 있습니다. 미리 감사드립니다.
다음과 같이 셀레늄 모듈을 사용하여 그것을 할 수 있습니다. HTTP 기본 인증을 사용하는 경우 쿼리에 하나의 HTTP 헤더를 추가하는 것만으로 충분하지만 양식과 captcha가 있으면 전체 게임이 다릅니다. –
기계화를 시도하십시오 : http://wwwsearch.sourceforge.net/mechanize/ 그러나 로그인하는 방법을 알고 있어야합니다. – sherpya