2009-10-01 3 views
0

검색을 위해 blackle.com을 쿼리하려고하는데 403 HTTP 오류가 발생합니다. 누군가 여기서 잘못된 점을 지적 할 수 있습니까?blackle.com queries

#!/usr/bin/env python 

import urllib2 
ss = raw_input('Please enter search string: ') 
response = "http://www.google.com/cse?cx=013269018370076798483:gg7jrrhpsy4&cof=FORID:1&q=" + ss + "&sa=Search" 
urllib2.urlopen(response) 
html = response.read() 

print html 

답변

2

HTTP 403 (좋은 설명은 here 참조) "금지"의미 : google.com 해당 리소스에 액세스 할 수 있도록하지 않습니다. 브라우저에에 액세스하게하므로 사용자 에이전트 확인 등을 통해 로봇 (자동 코드가 아닌 대화 형 사용자 브라우저)으로 사용자를 식별하고있는 것으로 추정됩니다. robots.txt를 확인하여 해당 URL에 액세스 할 수 있어야합니까? http://www.google.com/robots.txt에서 한 줄을 봅니다 :

Disallow: /cse? 

여기서 로봇은 허용되지 않습니다. Python 프로그램이 robots.txt 파일을 쉽게 이해할 수 있도록 표준 Python 라이브러리 모듈 roboparser에 대해 robots.txt, here에 대한 설명은 here을 참조하십시오.

Google의 '로봇'대 인간의 탐지를 속일 수 있습니다 (예 : 귀하의 사용자 에이전트 헤더를 위조하여 등등, 그리고 어쩌면 당신은 잠시 동안 그것과 함께 떠나 겠지만, 의도적으로 사용 약관을 위반하고 구글에 대한 싸움에 들어가고 싶어 ...?

관련 문제