저는 약간의 웹 사이트를 크롤링하기 위해 약간의 봇을 만들고 있습니다. 지금, 난 그냥 지금 그것을 밖으로 테스트 그리고 난 설정의 2 종류의 시도 : 매 3 초너무 공격적인 봇?
약 10 요청 -는 IP가 금지되었다가, 그래서 나는 말했다 - 좋아, 그건 너무 빨리입니다.
3 초마다 2 회의 요청 - IP가 30 분 후에 금지되고 1000 개 이상의 링크가 크롤링되었습니다.
그래도 너무 빠릅니까? 우리는 "우리는 단지 크롤링되기를 원하지 않습니까?"라는 메시지를 받으면 1.000.000 링크 가까이에서 이야기하고 있다는 것을 의미합니다. 또는 여전히 너무 빠르다?
감사합니다.
편집
다시 시도 - 나중에 나는 금지있어 30 분, 550 개 링크 -이 요청 5 초마다.
나는 2 초마다 1 회의 요청을 할 것이지만 같은 일이 일어날 것으로 생각됩니다. 나는 그를 찾을 수 있다면 내가 관리자에게 연락해야 할 것 같아.
금지되기 전에 몇 페이지를 가져 왔습니까? 'robots.txt'를 요청하고 존경 해 봤어? 'User-Agent' 헤더에 무엇을 넣었습니까? – benzado
robots.txt를 요청하지 않았지만 브라우저에서 먼저 확인했습니다. 대략 1000+ 페이지, 나는 확실하지 않다. 그리고 아니요, 아직 사용자 에이전트 세트가 없습니다. 아마도 내 다음 단계가 될 것입니다. – sirrocco
크롤링하려는 사이트의 관리자에게 문의 해 보셨습니까? 특히 전자 메일 주소를 수집하려고하는 스팸 발송자와 같이 사악한 활동을 의심하여 자신을 금지하는 경우에만 무언가를 처리 할 수 있습니다. – ZoogieZork