URL, 추천 코드, 세션, 시간 등을 로깅하여 페이지 뷰를 매우 기초적으로 추적하고 있지만 로봇 (Google, Yahoo 등)에 폭격을 가하고 있습니다. 나는 효과적인 방법이이 통계를 걸러 낼지 또는 기록하지 않는지 궁금합니다.모든 웹 사이트 활동을 추적하고 웹 로봇 데이터를 필터링하는 방법
나는 로봇 IP 목록 등을 실험했지만 이것이 절대 안전한 것은 아닙니다.
robots.txt, htaccess, PHP 서버 측 코드, 자바 스크립트 또는 로봇을 "속이거나"비인간적 인 상호 작용을 무시할 수있는 다른 방법이 있습니까?
대부분/모든 로봇이 자바 스크립트를 따르지 않는다고 가정 했습니까? 이 기법을 사용하는 주된 단점은 자바 스크립트가 비활성화 된 사용자가 액세스 할 수없는 방해가되는 JavaScript 및 내용입니다.그러나 이것은 더 접근하기 쉬운 코드로 쉽게 해결할 수 있으며 두 가지 추적 시스템을 갖습니다 - JavaScript로 방문하고 WITHOUT없이 방문합니다. 로보트가 없으면 사용자 에이전트가 필터링하지 않고도 ... –
@ 피터 - 아니요, 자바 스크립트를 따라갈 수 없으며 SEO에 방해가됩니다. 나는이 기술을 지적해야 할 필요성을 느꼈다. 개발자가 많은 링크를 숨겨서 구글이 그들의 페이지를 스팸 덱스 (spamdexes)로 표시하는 것을 막기 위해 그것을 사용했다는 것을 알고있다. – karim79
@Peter - ... 그리고 나는하지 않는다. 나 자신 :) – karim79