2014-10-28 3 views
-1

Google 결과 페이지에서 URL 링크를 가져 오는 스크립트를 만들었습니다. 스크립트는 정상적으로 작동하지만 Google에서 차단 한 후에 IP 주소로 최대 3 회 실행됩니다.

내 머리글에 다음 내용이 포함되어 있다고 생각합니다. python-requests/2.3.0 CPython/2.7.2 Windows/7. 그래서 헤더를 사용하여 변경하고이 site을 사용하여 결과를 확인하려고했습니다.Python 요청 모듈 문제

이 내 헤더입니다 :

headers = { 
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0", 
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
"Accept-Language" : "en-US,en;q=0.5", 
"Connection" : "keep-alive",} 

하지만 여전히 구글은 내 브라우저에서 검색 할 때 모든 것이 잘 작동 아는 로봇 나를 감지합니다.

이 문제를 해결하는 방법?

+1

[Google API 속도 제한] (http://stackoverflow.com/questions/4662069/google-api-rate-limiting) –

+0

의 가능한 복제본 Google은 로봇을 탐지하는 데 다소 똑똑하고 보안 문자로 매우 자유롭게 도전합니다. –

+0

요청 사이에 잠을 잤습니다. 나는 하나의 IP 뒤에 큰 사무실 건물에서 일한다. 분명히 우리 모두가 그 순간에 Google이 필요하기 때문에 때때로 나는 captcha로 타격을 받는다. –

답변

0

스크립트에 문제가 없습니다. 스크립트를 사용하여 검색 결과를 자동으로 잡는 것은 모든 검색 엔진의 서비스 약관을 위반합니다. 검색 엔진은 냄새를 맡고 그러한 액세스를 차단합니다. 데이터를 가져 오기 위해서는 Google의 공식 API 중 하나를 사용해야합니다. 같은 Google Custom Search 또는 이와 유사한.