2012-08-17 5 views
0

특정 URL에 특정 콘텐츠가 있는지 확인하는 봇을 만들려고합니다. 그러나, 나는 그것을 실행하면 'HTTP 리디렉션 루프'오류가 계속 발생합니다.페이지에서 봇이 허용하는지 어떻게 알 수 있습니까?

제가 의심 할 수있는 유일한 점은 페이지가 봇을 허용하지 않는다는 것입니다. 페이지가 봇을 허용하지 않는지 알 수있는 방법이 있습니까? 나는 그것을 봤지만 나는 아직 답을 찾지 못했다.

편집

일도 체크 아웃 후, 이것은 robots.txt에의 말씀입니다 :

User-agent: * 
Disallow: /advsched/ 

나는 또한 내가 내 브라우저에서 쿠키를 사용하지 않도록하고 페이지를 방문 할 때, 내가 얻을 것으로 나타났습니다 'HTTP 리디렉션 루프'오류입니다. 그래서 내가 이해하는 바에 따르면, 내가 접근하려고하는 페이지는 봇을 허용하지 않는다. 나는 봇이다 아닌지

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5 

이 사이트는 말할 수 없다 그러나, 무엇에서 내 사용자 에이전트는이 같은 것입니다만큼, 컬 기능에 대해 이해합니다. 쿠키 하나만 남게됩니다. 나는 cURL 함수가 쿠키를 처리 할 수 ​​있다는 것을 알고 있지만 표준 사용자처럼 보이도록 처리 할 수 ​​있습니까? 아직 작동하지 못했습니다.

+0

에있다, 나는 당신이 말할 방법 가정합니다. – ceejayoz

+1

실제로 페이지에서 콘텐츠를 가져 오는 코드를 게시 할 수 있습니까? 컬을 사용하여 올바른 방법을 사용하면 봇을 탐지하는 것이 불가능합니다. –

+3

사이트 소유자의 허용/일반 권한에 관해서는 http://example.com/robots.txt를 참조하십시오. – mario

답변

3

당신은 말할 수 없습니다.

봇 (bot)이란 무엇입니까? 서버는 어떻게 알 수 있습니까? 일반적으로 식별 정보는 요청 중에 클라이언트가 보낸 User-Agent 헤더에 있습니다. 그러나 일부 서버는 일반적인 수준에서 "봇"을 차단할 필요가 없습니다. 그들은 단지 Google을 차단하려고한다고 가정 해보십시오.

마리오의 제안은 robots.txt을 확인하는 것이 좋습니다. 사이트 소유자는 일반적으로 봇이 액세스 할 수있는 정보와 긁힌 정보로 처리해야 할 정보를 규칙에 저장합니다. 이것은 당신의 재 방향과 관련이 없습니다.

0

/robots.txt을 확인하고 그 내용을 해석하십시오. 페이지가 브라우저가 아니라 당신의 로봇으로 작동하는 경우

지침 http://robotstxt.org/

관련 문제