2010-04-12 3 views
1

웹 크롤러 (검색 엔진 및 비 검색 엔진 모두)가 사이트 통계에 영향을 미칠 수있는 방법은 무엇입니까 (예 : 다른 페이지 변형을 AB- 테스트 할 때)? 그리고 이러한 문제를 처리하는 방법은 무엇입니까? 예를 들어웹 크롤러는 사이트 통계에 어떤 영향을 줍니까?

: 그 웹 크롤러는 종종마다 서로 다른 사용자를 표시하므로

  1. 는 웹 크롤러 종종 자신의 쿠키를 삭제하고 자신의 IP를 마스크를 쓰고 많은 사람들이 있습니까, 그들은 사이트를 크롤링?

  2. 봇 (bot)이라는 것을 인식하는 데 사용할 경험적 방법은 무엇입니까? (나는하고 싶은 경우 정교한 충분히 봇, 실제 사용자 구별 할 수 있습니다 같은데요 -이 정확한지?)

그냥 명확히하기 위해, 아래의 의견에 따라 : 나는 또한 관심 내 사이트가 구체적으로 타겟팅되는 경우 (불법적 인 크롤러에 의해) 봇을 탐지하는

+0

특히 대상이 명확하지 않으면 대용량 웹 크롤러가 신원을 숨기려고하지 않습니다. 그들은 검색 엔진과 같은 거의 모든 화이트 모자 크롤러입니다. 따라서 사용자 에이전트를 살펴 보는 것이 일반적으로 필요합니다. – tloflin

답변

4

몇 가지 간단한 방법 : /robots.txt

  1. 조회수 - 단지 봇 (거의 어쨌든 로봇이 될 수 있습니다 괴짜 사람들)이 볼 것이다.
  2. 사용자 에이전트 - 담당 봇은 UA 문자열에 URL (예 : msnbot/2.0b (+http://search.msn.com/msnbot.htm 또는 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130)이있는 경우가 많으므로 이는 봇에 대한 강력한 증거입니다.
  3. JavaScript - bots가 실행하지 않습니다. 예를 들어 자바 스크립트를 사용하여 쿠키를 설정하면 서버에서 쿠키를 볼 때 "실제"브라우저에서 전송 된 것입니다.
  4. 원본 IP - 합법적 인 크롤러는 종종 자신의 도메인을 가지며 역 DNS 조회가이를 나타냅니다 (이 방법은 Google suggests that you identify the Googlebot입니다).

두 가지 중에서 로봇에서 발생하는 히트와 실제 사람들의 히트를 알아 내야합니다.

마지막으로 항상 감지하기 어려운 고약한 바보가 될 것입니다. 그러나, 적어도 내 경험에 의하면, 야생에있는 이들 중 많은 수가 없습니다.

+1

프로그래머도 때때로 robots.txt를 봅니다. :) – tloflin

+0

와우, 고마워요. –

1

크롤러는 페이지의 첫 번째 링크와 두 번째 링크와 같은 순서로 크롤링하는 경우가 많습니다.

관련 문제