로그인 할 때 인증 (사용자 이름/비밀번호)이 필요한 웹 사이트를 크롤링하는 오픈 소스 크롤러가 있습니까 ?? 웹 사이트에있는 문서의 색인 생성을 위해 대학 웹 사이트를 크롤링해야합니다. 도움이 필요합니다.인증을 사용하여 웹 사이트를 크롤링하는 크롤러
0
A
답변
0
아무도 알지 못했지만 시스템 관리자가 아마 허용하지 않을 것입니다. 당신은 PHP/libcurl에 루비/난간을 기반으로 스크립트를 작성할 수 있습니다
0
당신은 기본 크롤러의 예를 들어 볼 수 있었다 자신이 그래도 이렇게 .... 웹 사이트의 인증은 쿠키를 기반으로하며 Curl 라이브러리는 프로그램에서 쿠키를 보낼 수있는 기능을 제공합니다.
어떤 언어 (PHP 또는 Ruby)를 선호합니까? 루비를 사용하는 경우, 당신은
require 'curb'
require 'uri'
curl = Curl::Easy.new
curl.url = 'http://example.com/login/page'
curl.enable_cookies = true
curl.cookiefile = '/tmp/cookie'
curl.cookiejar = '/tmp/cookie'
form_field = URI.encode_www_form('username'=>yourname, 'password'=>yourpwd)
curl.http_post(form_field)
파일 '/ tmp를/쿠키'저장하고 브라우저와 같은 쿠키를 읽는 데 사용되는 다음과 같은 설정 코드를 작성할 수 있습니다. 쿠키는 인증을 가능하게합니다.
'form_field'는 웹 사이트의 사용자 이름과 비밀번호를 포함하지만 웹 사이트에 따라 다른 필드가 필요합니다. 웹 사이트의 로그인 양식을 해킹하여 어떤 필드를 웹 사이트에 게시해야하는지 파악해야합니다.
관련 문제
- 1. 검색 엔진이 웹 사이트를 크롤링하는 방법은 무엇입니까?
- 2. 크롤링하는 동안 (텍스트 만) 웹 사이트를 구문 분석하는 방법
- 3. .Net 기반 웹 크롤러 샘플
- 4. 속도를위한 최고의 웹 그래프 크롤러?
- 5. 다른 웹 크롤러 Nutch
- 6. java 웹 크롤러
- 7. 경쟁력있는 가격을위한 웹 크롤러
- 8. 적대적인 웹 크롤러 식별
- 9. PHP를 사용하여 웹 사이트를 크롤링
- 10. 백 링크보고 웹 사이트 크롤러?
- 11. cron을 사용하여 PHP 웹 크롤러 작성
- 12. PHP 기반 웹 크롤러 또는 자바 기반 웹 크롤러
- 13. OAuth를 사용하여 트위터 데이터를 크롤링하는 방법은 무엇입니까
- 14. 자동 웹 크롤러 구축
- 15. 웹 크롤러 구축
- 16. 웹 수집기/제품 크롤러
- 17. 웹 크롤러 필요
- 18. CakePHP 웹 크롤러 메모리 누수
- 19. 스레드 지원이있는 파이썬 웹 크롤러
- 20. 검색 엔진 Bots가 크롤링하는 방법?
- 21. 다이제스트 인증을 사용하여 웹 리소스를 다운로드하는 방법
- 22. 동적 링크를위한 Mp3 링크 크롤러
- 23. .NET - 여러 인증을 사용하여 웹 페이지를 다운로드하십시오.
- 24. log4net을 사용하여 웹 사이트를 추적하십시오.
- 25. 알려진 웹 크롤러 목록이 있습니까?
- 26. 크롤러 용 웹 페이지로드 번복
- 27. 웹 크롤러 링크 추출 문제
- 28. 웹 소스 코드를 검색하는 웹 크롤러
- 29. 소스를 크롤링하는 방법 내 웹 크롤링
- 30. PHP로 웹 사이트를 크롤링하는 동안 페이지 요소와 상호 작용하는 방법은 무엇입니까?
[this] (http://www.ibm.com/developerworks/data/library/techarticle/dm-0707nishitani/) 및 [this] (http://searchengineland.com/google -adsense-launchs-site-authentication-feature-11718). 그러나, 당신이 묻는 것은 일반적으로 크롤 러의 본성에 반하는 것입니다. –