2014-04-01 2 views
1

매달 내 연구를 위해 Google Trends CSV 파일을 다운로드하기 위해 스크립트를 실행하고 약 1000 개의 검색어가 있습니다. 내가 유명한 "당신의 할당량 한도에 도달했습니다, 나중에 다시 시도하십시오"오류 메시지를 알고 있으므로 쿠키를 제공하기 위해 기계화 파이썬 모듈을 사용했습니다. 여기 내 전화입니다 : 내 실제 스크립트에서Google Trends CSV 파일 다운로드 (AWS로부터)

import mechanize # other imports omitted for simplicity 

br = mechanize.Browser() 

cj = cookielib.LWPCookieJar() 
br.set_cookiejar(cj) 

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 

response = br.open('https://accounts.google.com/ServiceLogin?hl=en&continue=https://www.google.com/') 
forms = mechanize.ParseResponse(response) 
form = forms[0] 
form['Email'] = username 
form['Passwd'] = password 
response = br.open(form.click()) 

Result = br.open("http://www.google.com/trends/trendsReport?q=SearchTerm&export=1") 
CSVcontent = csv.reader(StringIO(Result.read())) 

, 나는 1 ~ 5 초까지 변화하는 수면 시간의 사양을 가지고있다.

그러나 이러한 방법을 사용하면 한 번에 약 350 개의 CSV 파일 만 다운로드 할 수 있습니다. 실행 후 다른 AWS 인스턴스 (동일한 Google 계정 자격증 명을 사용하는 다른 지역)에서 스크립트를 다시 실행하더라도 할당량 한도가 모두 소진되기 전에 2 번만 다운로드 할 수 있습니다.

동일한 사례에서 사용되었지만 다른 Google 자격증 명과 함께 스크립트를 다시 실행하려고했지만 동일한 문제가 발생했습니다 (2 개의 CSV 다운로드 만 가능).

최악의 경우는 한 달 후에도 스크립트 (2 개월 전)에서 사용한 Google 자격 증명으로 매일 2 개의 CSV 파일 만 다운로드 할 수 있습니다.

따라서 Google은 IP 주소 수준과 사용자 계정 수준 모두에서 사용자 다운로드를 모니터링하고 있으며 너무 많이 다운로드 한 계정에 플래그를 지정합니다.

내 질문 :

은 할당량 제한이없는 유료 서비스 또는 API 가 있는지 말해 줄 수있는 사람이 있습니까?

Tor 또는 다른 방법을 사용하여 Google의 모니터링을 우회 할 수있는 방법이 있습니까? 하지만 Tor를 사용하더라도 Google 계정 자격증 명 이 필요합니다.

(각 IP 주소 수 이상 다운로드 2 CSV 파일로 AWS와 함께 그래서 할 수있는 자동 규모)를 사용자 이름/암호없이 구글 트렌드 데이터를 다운로드하는 방법이 있나요?

모든 도움과 기본 생각은 크게 감사하겠습니다.

답변

-2

사용자 이름/암호없이 구글 트렌드 데이터를 다운로드하는 방법이 있나요

네, 로그인 할 필요없이 데이터를 얻을 수있는 방법이다 (지금과 거기에 테스트입니다 좋게 보이지만 그것은 또한 내가 그것을 잃어 버리지 않기 때문에 공유 할 수없는 비밀입니다.)

주말에 다운로드 한 파일이 거의 같은 방식으로 3,000 ~ 5,000 개 파일로 공유되며, 주말마다 공유합니다. (2 IP, 2 ID)

내가 줄 수있는 비밀은 Google을 망치는 것입니다. 당신이 그들을 망치로 치면 시스템이자를거야

나는 1.5 ~ 2 분의 휴식이 도움이된다는 것을 발견했다.

이런 식으로보세요. 하루 24 시간, 1440 분입니다. 매일 2 분마다 파일을 가져 오면 하루에 720 파일입니다.

그리고 임의의 시간 기능을 넣어두면 사용자 또는 스크립트인지 여부를 알 수 없습니다.

만 CSV 당신이를 위해 계정을 사용하지 않는 경우 전

그것은 재설정됩니다 내 스크립트 A (몇) 달 (들)에 사용되는 구글의 자격 증명을 사용하여 매일 파일이 다운로드 주 정도. 또한 도움이 될만한 IP를 갱신 할 수 있다면.

+0

안녕하세요 jnovo/Skittles : 답장을 보내 주셔서 감사합니다. 다른 사람들이 나와 같은 일을하고 있다는 것을 아는 것이 좋습니다. 임의의 시간 기능이 있지만 1 초에서 5 초까지만 변합니다. 나는 1.5 ~ 2 분 휴식을 시도 할 것이다. 또한 차단 된 계정을 복구하는 방법에 대한 귀하의 도움에 감사드립니다. 시간이 올 때 편안함을 느낄 때는 "비밀"방법을 살펴 보는 것이 좋습니다. 아아, 귀하의 도움을 진심으로 감사드립니다! 앞으로 연락을 원하시면 [email protected]으로 이메일을 보내주세요. 다운로드 할 때 사용하는 계정 중 하나입니다 :-) – user3417321

+0

있다면 공유하십시오! –