2012-11-17 4 views
2

그래서 로그인 시스템 뒤에있는 것을 긁어 내려고했습니다. CasperJS를 사용해 보았지만 양식에 문제가있어 어쩌면 그렇게 할 길이 아닙니다. 나는 사이트의 소스 코드를 확인했고 폼 이름은 "theform"이지만 결코 로그인을해서는 안된다. 어떤 사람이 CasperJS를 사용하여 올바르게 수행하는 방법에 대한 자습서를 가지고 있습니까? API와 Google을 살펴본 결과 아무 것도 작동하지 않습니다.웹 스크래핑 - 웹 로그인 문제

또는 웹 스크래핑을 쉽게 수행하는 방법에 대한 권장 사항이 있습니다. 간단한 조건부 상태를 확인하고 몇 가지 버튼을 클릭 할 수 있어야합니다.

답변

0

데이터를 스크랩해야하는 경우가 있습니다. 더 간단한 방법을 시도해보십시오. mechanize은 스크랩하려는 사이트에 멋진 자바 스크립트가없는 경우 이러한 용도로 유용합니다. 귀하의 질문에 Python mechanize login to website

1

당신이 CasperJS를 언급하지만 당신은 파이썬과 같은 질문을 태그 :

여기에 여기에 좋은 토론 트레드이다. 당신은 당신이 video이 로그인으로 웹 페이지를 menaging를 들어

을 긁어 웹에 대해 서로 다른 도구를 설명 확인할 수있는 lenguage로 파이썬을 사용하려면 당신은 webside를 위에서 mechanize 샘플 코드를 사용할 수 있습니다

br = mechanize.Browser() 
# Explicitly configure proxies (Browser will attempt to set good defaults). 
# Note the userinfo ("joe:[email protected]") and port number (":3128") are optional. 
br.set_proxies({"http": "joe:[email protected]:3128", 
"ftp": "proxy.example.com", 
      }) 
# Add HTTP Basic/Digest auth username and password for HTTP proxy access. 
# (equivalent to using "joe:[email protected]" form above) 
br.add_proxy_password("joe", "password") 
# Add HTTP Basic/Digest auth username and password for website access. 
br.add_password("http://example.com/protected/", "joe", "password") 

다른 좋은 파이썬 선택은 scrapy

+0

매우 도움이되었습니다. 나는 그것을 시도 할 것이다. 고맙습니다. – Lanni

+0

@ tomasz74 : casperjs 실행 파일은 파이썬으로 작성되었습니다. 루비 버전도 있습니다. (나는 이것이 파이썬으로 이것을 태그하는 것이 여전히 이상하다는 것에 동의하지만 그것이 OP가 그랬던 이유일지도 모른다.) – iconoclast

1

mechanize (Stateful 프로그래밍 방식의 웹 브라우징)으로 로그인 할 수 있습니다!

구문 분석 페이지의 경우 BeautifulSoup에서 사용할 수 있습니다!

0

당신은 CasperJS에 대해 언급했기 때문에 웹 사이트가 JavaScript를 사용하여 데이터를 생성한다고 가정 할 수 있습니다. 내 제안은 WebKit을 확인하는 것입니다. 그것은 브라우저 "엔진"으로, 웹 사이트에서 원하는 것을 할 수있게 해줍니다. Pyqt4 프레임 워크를 사용할 수 있습니다.이 프레임 워크는 매우 훌륭하고 훌륭한 문서입니다.

4

CasperJS의 저자인데 불행히도 실제 코드 나 재현 가능한 테스트 사례를 보지 않으면 도움이되지 않습니다. 게시물이 Python 태그됨에 따라

, 당신은 Ghost.py에 의해 CasperJS에서 영감을 프로젝트에 관심이 있지만, 파이썬 API를 가지고있을 수 있습니다.

관련 문제