2014-06-09 3 views
2

웹 크롤러 (아주 작은)를 만들고 있습니다. NYTIMES과 같은 사이트는 쿠키를 방문 할 때마다 쿠키를 확인합니다. 사용 가능한 쿠키가 없다면 쿠키를 먼저 확인한 것으로 보입니다. 오류가 발생하면 로그인 페이지로 리디렉션됩니다.크롤러에서 쿠키를 처리하는 방법

이제 어떻게이 동작을 프로그래밍을 사용하여 처리하고 리디렉션을 방지 할 수 있습니까?

답변

0

일반 답 : 쿠키는 여러 용도로 사용된다, 그래서 당신은 크롤러에 사용할 수있는 하나의 솔루션이 없습니다. 대부분의 사이트는 쿠키를 사용자 식별 체계의 핵심 구성 요소로 사용하며, 쿠키를 사용하면 크롤러가 무엇인지 식별 ​​할 수 없습니다. 이것은 선호되지 않습니다. 쿠키 데이터 전송에 대한 자세한 정보는 http://en.wikipedia.org/wiki/HTTP_cookie#Setting_a_cookie에서 확인할 수 있습니다. HTTP 요청에서 중요한 라인은 다음과 같습니다

Cookie: name=value; name2=value2 

구체적인 답변 : 나는 뉴욕 타임즈 사이트의 무엇을 알고, 그들은 그들의 쿠키 그래서, 자신의 자료를 읽기 위해 가입을 요구에서 아마도 인증에 필요하며 크롤러가 스푸핑해서는 안됩니다.

관련 문제