2014-07-15 3 views
-1

Pinterest, Twitter 또는 Facebook과 같은 소셜 웹 사이트에서 데이터를 수집하고 싶습니다. 트위터와 같은 일부 사용자가 API를 제공했음을 알고 있지만 많은 단점이있을 수 있으므로 API를 사용하고 싶지 않습니다. 제 질문은 이러한 소셜 웹 사이트를 직접 긁거나 크롤링하는 방법입니다.API를 사용하지 않고 소셜 웹 사이트를 크롤링하는 방법은 무엇인가요?

일반 웹 사이트의 간단한 크롤링 방법을 알고 있습니다. 하지만 소셜 웹 사이트를 크롤링 할 때 가장 먼저해야 할 문제는 로그인해야한다는 것입니다. 누구도이 문제를 해결할 방법을 알고 있습니까?

감사합니다. 당신은 (원칙적으로 적어도) 당신이 그런 사이트를 탐색 할 때 happenning 무슨 프로그램에서 모방 할 수 있어야하므로 libcurl 같은

답변

-1

HTTP 클라이언트 라이브러리는 당신에게 프로그램 수와 쿠키를 사용하고 POST 요청을 할 수있는 기능을 제공합니다.

물론 이러한 사이트는 바뀔 수 있으므로 적응해야합니다.

아마도 ICAP (예 : 특수 구성된 오징어 프록시를 통해)을 사용하는 것이 또한 적절할 수 있습니다.

1

이것은 서비스 계약의 거의 전부에 반대합니다.

그러나 당신이 그 일에 설정되어있는 경우 당신은 당신이 모든 의도와 목적을 위해 웹 브라우저를 만드는 실제 크롤러를 만들 수 있습니다

1) 갈 수 기본적으로이 개 경로가 있습니다. 그런 다음 쿠키 등을 관리하면 로그인 할 수 있습니다. 이것은 일반적으로 당신이 똑똑한 시합을 할 수 있지만 그들이 쉽게 감지 할 수 있습니다.

2) 사용자가 클릭하거나 모르는 부분을 시뮬레이트하는 자동화 소프트웨어를 만들 수 있습니다. 나는이 제품으로 약간의 성공을 거두었으며, 사용자가 너무 빨리 광산을 채우지 않는 한 사용자는 시뮬레이션되고 있기 때문에.

관련 문제