내 도메인에 속하지 않은 페이지에서 일부 데이터를 긁어 내야합니다. 페이지 서버 쪽을로드하고 다양한 언어 (asp.net, PHP 등)로 구문 분석하는 방법을 알고 있지만 로그인 한 후에 페이지를 다 써야합니다.로그인 자격 증명이있는 경우 로그인 한 것처럼 데이터 페이지를 크롤링하려면 어떻게해야합니까?
예를 들어 페이지에 속성으로 HTML 태그과 같이 사용자 ID로 설정합니다. 로그인하지 않는 한에서 ID가없는 것
<div id="profile" data-userid="1234"></div>
데이터 - 사용자 ID 속성은 서버 측에서 사이트에 로그인 할 수 있습니까?
덕분에, 특히 약 curl 및 CURLOPT_COOKIEFILE
읽기
토마스
예, [cURL] (http://php.net/curl)을 사용하면이 작업을 수행 할 수 있습니다. cURL 세션을 만들고, 쿠키를 사용하도록 구성하고, HTTP 요청을 통해 로그인을 에뮬레이트 한 다음 로그인하려는 페이지에 액세스하십시오. 검색 할 경우 많은 예제가 있어야합니다. – drew010
이 정확한 질문을 반복해서 보는 것에 지쳤습니다. 로그인이 필요한 경우 데이터를 스크랩하지 않기를 원할 것입니다. 그들이했다면, 그들은 api를 가질 것입니다. – dqhendricks
가능한 복제본 [로그인이 필요한 웹 사이트에서 스크래핑?] (http://stackoverflow.com/questions/4997147/scraping-from-a-website-that-requires-a-login) – dqhendricks