2011-05-14 14 views
0

로그인 할 때 인증 (사용자 이름/비밀번호)이 필요한 웹 사이트를 크롤링하는 오픈 소스 크롤러가 있습니까 ?? 웹 사이트에있는 문서의 색인 생성을 위해 대학 웹 사이트를 크롤링해야합니다. 도움이 필요합니다.인증을 사용하여 웹 사이트를 크롤링하는 크롤러

+0

[this] (http://www.ibm.com/developerworks/data/library/techarticle/dm-0707nishitani/) 및 [this] (http://searchengineland.com/google -adsense-launchs-site-authentication-feature-11718). 그러나, 당신이 묻는 것은 일반적으로 크롤 러의 본성에 반하는 것입니다. –

답변

0

아무도 알지 못했지만 시스템 관리자가 아마 허용하지 않을 것입니다. 당신은 PHP/libcurl에 루비/난간을 기반으로 스크립트를 작성할 수 있습니다

0

당신은 기본 크롤러의 예를 들어 볼 수 있었다 자신이 그래도 이렇게 .... 웹 사이트의 인증은 쿠키를 기반으로하며 Curl 라이브러리는 프로그램에서 쿠키를 보낼 수있는 기능을 제공합니다.

어떤 언어 (PHP 또는 Ruby)를 선호합니까? 루비를 사용하는 경우, 당신은

require 'curb' 
require 'uri' 
curl = Curl::Easy.new 
curl.url = 'http://example.com/login/page' 
curl.enable_cookies = true 
curl.cookiefile = '/tmp/cookie' 
curl.cookiejar = '/tmp/cookie' 
form_field = URI.encode_www_form('username'=>yourname, 'password'=>yourpwd) 
curl.http_post(form_field) 

파일 '/ tmp를/쿠키'저장하고 브라우저와 같은 쿠키를 읽는 데 사용되는 다음과 같은 설정 코드를 작성할 수 있습니다. 쿠키는 인증을 가능하게합니다.

'form_field'는 웹 사이트의 사용자 이름과 비밀번호를 포함하지만 웹 사이트에 따라 다른 필드가 필요합니다. 웹 사이트의 로그인 양식을 해킹하여 어떤 필드를 웹 사이트에 게시해야하는지 파악해야합니다.

관련 문제