2009-04-08 3 views

답변

3

좋은 거미

  • 그것이 있다면
  • 는 일반 사용자

그러나 분명한 탐지보다 빠르게 쿼리하여 적절한 사용자 에이전트에게있는 robots.txt를 읽고 브라우저 또는 거미는 가능하지 않습니다.

1

사용자 에이전트 문자열을 사용하여 봇을 식별 해보십시오.

다른 봇은 다른 사용자 에이전트 문자열을 갖고있는 것 같다 :

http://www.useragentstring.com/pages/useragentstring.php

그러나 사용자 에이전트 문자열을 쉽게 스푸핑 할 수 있습니다.

1

일반 봇이 사용하는 사용자 에이전트 문자열 목록을 사용할 수 있습니다. 어떤 형태의 속도 감지를 사용하여 매우 높은 비율의 요청이 아마도 거미 (또는 전체 사이트를 떠나는 누군가)가 될 것이라고 판단 할 수 있습니다.

일반적인 봇에서 사용하는 IP 주소 목록도있을 수 있지만 바보 같은 검색 시스템은 거의 불가능합니다.

실제 방문자가 절대 클릭하지 않을 링크를 만들어 링크를 따르는 사람을 스파이더로 신고 할 수 있습니다. 어쨌든 어떤 사람들은 링크를 클릭하게되지만 호기심은 피할 수 없습니다.

1

스파이더가 좋은 경우 this과 같은 기존 사용자 에이전트 목록을 사용하여 사용자 에이전트를 통해 스파이더를 감지 할 수 있습니다. 그러나 대개 좋은 웹 스피더는 다음과 같습니다. robots.txt 컨벤션

robots.txt 파일을 무시하고 사용자 에이전트를 스푸핑하는 로봇은 다른 방법을 사용하여 스파이더임을 숨길 가능성이 큽니다.