2013-01-14 3 views
0

웹 사이트에서 성적을 받기 위해 웹 스크랩 프로그램을 작성 중입니다. Mechanize를 사용하여 페이지에 로그인하고 내가 긁고있는 영역으로 이동했습니다. 불행하게도이 페이지는 자바 스크립트를 사용하여 페이지를 암호화합니다 (스크래핑을 막을 수도 있음). 해독 스크립트를 발견하고 Python으로 이식했습니다. 그것은 작동하고 나는 페이지에서 암호화 된 문자열을 추출하는 데 사용하고 그것을 변환하면, 그것은 HTML 테이블에된다.Mechanize를 사용하여 페이지에 HTML 삽입

내 요점을 알기 위해 HTML을 페이지에 다시 삽입하고 기계화를 사용하여 테이블의 링크를 사용하여 성적을 얻는 방법이 있습니까?

도움 주셔서 감사합니다.

편집 : 나는 그것이 어떤 도움이라면, 또한 아름다운 수프 있습니다.

+0

외부 웹 사이트에 코드를 삽입하고 싶습니까? – feeela

+0

그냥 셀레늄을 사용하면 더 간단합니다. – root

+0

@feeela 아니요, 일시적으로 로컬 페이지에 삽입하고 mechanize를 사용하여 탐색하려고합니다. 또는 어떻게 든 기계화를 사용하여 HTML 문자열 자체를 둘러 볼 수있는 방법을 찾으십시오. – EpicDavi

답변

0

난 그냥이를 사용하여 종료 :

response = br.open("www.linknotonpagethatiwanttogoto.com") 
page = response.read() 

난 당신이 응답으로 링크의 .open()를 저장하는 것이 발견, 대신 .follow_link를 사용하는(). 또한 브라우저는 세션 쿠키가 보존되도록 동일한 쿠키를 사용합니다. 그래서 html을 파싱 한 후에, 나는 .open()으로 링크를 팝했고 새로운 페이지를 얻었다.

관련 문제