2011-01-24 10 views
4

okcupid에 로그인하고 매일받은 메시지의 수를 계산하는 간단한 스크립트 (cURL/python/ruby ​​/ bash/perl/java)를 작성하려면 어떻게해야합니까?인증이 필요한 웹 크롤링

1/21/2011 1 messages 
1/22/2011 0 messages 
1/23/2011 2 messages 
1/24/2011 1 messages 

주요 문제는 내가 전에 웹 크롤러를 작성한 적이 있다는 것입니다 :

출력은 같은 것입니다. okcupid와 같은 사이트에 프로그래밍 방식으로 로그인하는 방법을 모르겠습니다. 다른 페이지를로드하는 동안 인증을 계속 유지하려면 어떻게합니까? 나는 원시 HTML에 접근하면 등

, 나는 등 정규식과지도

+2

괴상한 사람의 힘을 이용해 사랑을 찾는 길. Kudos =) –

+0

은 당신이 cURL을 배워야 할 것처럼 들립니다. – Brynjar

+0

@ George : 고마워요!, @ Brynjar : 결코 사용하지는 않았지만 cURL도 괜찮을 것입니다. 세부 사항을 게시 할 수 있습니까? – pokerface

답변

2

를 통해 괜찮을거야 다음은받은 편지함의 첫 페이지를 다운로드 컬를 사용하는 솔루션입니다. 적절한 해결책은 메시지의 각 페이지에 대한 마지막 단계를 반복합니다. $USERNAME$PASSWORD에 정보를 입력해야합니다.

#!/bin/sh 

## Initialize the cookie-jar 
curl --cookie-jar cjar --output /dev/null https://www.okcupid.com/login 

## Login and save the resulting HTML file as loginResult.html (for debugging purposes) 
curl --cookie cjar --cookie-jar cjar \ 
    --data 'dest=/?' \ 
    --data 'username=$USERNAME' \ 
    --data 'password=$PASSWORD' \ 
    --location \ 
    --output loginResult.html \ 
    https://www.okcupid.com/login 

## Download the inbox and save it as inbox.html 
curl --cookie cjar \ 
    --output inbox.html \ 
    http://www.okcupid.com/messages 

이 기술은 video tutorial about cURL에서 설명했습니다.

관련 문제