2013-01-14 4 views
4

craigslist sfbay.craigslist.org에서 HTTP GET을 시도하고 있습니다. 여기에 내가 오류를 받고 결국craigslist의 HTTP GET이 차단되었습니다.

require 'net/http' 
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org')) 

정말 간단 내 (루비) 코드 "이 IP를 자동으로 차단되었습니다가."

이 동작은 Amazon EC2 또는 heroku에서이 문제가 발생하는 경우에만 발생합니다. 내 컴퓨터 localhost에서 다시 시도 할 때 정확한 결과를 얻습니다. 이것은 Amazon EC2와 관련이 있습니까?

다른 사람들이 동일한 문제를 겪고 있는지 궁금합니다. EC2에서 craigslist에 액세스하려면 어떻게해야합니까?

답변

8

Craigslist가 IP (사용자 에이전트가 아닌)별로 주요 Amazon EC2 IP 범위를 차단하고 있음을 확인할 수 있습니다. 다른 볼륨에서도 다른 IP가 차단 될 수 있다고 생각되지만 다른 곳에서 작동합니다.

tor을 사용하면 단계를 넘길 수 있습니다. 더 크게, this stackoverflow question discusses data sources used by craigslist mashups.

차단 된 모든 CIDR이없는 것으로 가정 할 때 브라질 EC2도 테스트했습니다. 부에노.

+0

비 윤리적이지 않습니까? 그것은 분명히 구글이나 빙 또는 물론, 야후를 차단하지 않습니다! –

관련 문제