2012-03-22 1 views
0

내 도메인에 속하지 않은 페이지에서 일부 데이터를 긁어 내야합니다. 페이지 서버 쪽을로드하고 다양한 언어 (asp.net, PHP 등)로 구문 분석하는 방법을 알고 있지만 로그인 한 후에 페이지를 다 써야합니다.로그인 자격 증명이있는 경우 로그인 한 것처럼 데이터 페이지를 크롤링하려면 어떻게해야합니까?

예를 들어 페이지에 속성으로 HTML 태그과 같이 사용자 ID로 설정합니다. 로그인하지 않는 한에서 ID가없는 것

<div id="profile" data-userid="1234"></div> 

데이터 - 사용자 ID 속성은 서버 측에서 사이트에 로그인 할 수 있습니까?

덕분에, 특히 약 curlCURLOPT_COOKIEFILE 읽기

토마스

+0

예, [cURL] (http://php.net/curl)을 사용하면이 작업을 수행 할 수 있습니다. cURL 세션을 만들고, 쿠키를 사용하도록 구성하고, HTTP 요청을 통해 로그인을 에뮬레이트 한 다음 로그인하려는 페이지에 액세스하십시오. 검색 할 경우 많은 예제가 있어야합니다. – drew010

+0

이 정확한 질문을 반복해서 보는 것에 지쳤습니다. 로그인이 필요한 경우 데이터를 스크랩하지 않기를 원할 것입니다. 그들이했다면, 그들은 api를 가질 것입니다. – dqhendricks

+0

가능한 복제본 [로그인이 필요한 웹 사이트에서 스크래핑?] (http://stackoverflow.com/questions/4997147/scraping-from-a-website-that-requires-a-login) – dqhendricks

답변

0

예. 크롤러에서 세션을 인식하는 HTTP 구성 요소를 사용해야합니다. 프로그래밍 방식으로 로그온하고 각 크롤링이 로그온 동작에서 얻은 쿠키를 제공합니다. 테스트 스위트에는 종종 이러한 구성 요소가 있습니다 (예 : SimpleTest 참조).

1

(I는 로그인 자격 증명을해야합니까). 컬을 사용하여 양식을 게시하고 세션 쿠키를 유지 보수 할 수 있습니다.

관련 문제