내 사이트에 모든 방문자 (Os, Browser 및 자세한 내용)를 추적하고 싶습니다. 사용자 에이전트 및 URL 및 기타 필수 데이터를 database.Later에 저장하고 있습니다. 나중에 Crone을 실행하면 사용자 에이전트가 분석되어 브라우저 인 Os를 가져옵니다. 그러나 크롤러를 식별하려고합니다 (방문자로 간주 될 수 없기 때문에). 따라서 사용자 에이전트에서 크롤러를 식별 할 수있는 방법이 있습니다. 크롤러의 사용자 에이전트는 일반적인 패턴을 따랐습니까?사용자 에이전트에서 크롤러 식별
0
A
답변
1
User-Agent
문자열을 사용하면 중요한 문자열은 신뢰할 수 없으며 나쁜 생각입니다.
악성 크롤러는 일반적으로 인기있는 브라우저의 UA 문자열을 보냅니다. 적절한 검색 엔진 크롤러는 항상 인식 가능한 UA 문자열을 보내지 만 웹 브라우저를 구성하여 해당 크롤러 중 하나 인 척을하지는 않습니다.
반환해야하는 경우 get_browser()
및 crawler
값의 요소를 참조하십시오.
2
사용자 에이전트 또는 (서브넷)으로 식별 할 수 있습니다.
첫 번째 방법은 신뢰할 수 없습니다. 왜냐하면 누구나 사용자 에이전트를 수정하는 크롤러로 식별 할 수 있기 때문입니다. 두 번째 방법이 분명 좋습니다.
는이 웹에 많은 목록이 있습니다 : - http://www.robotstxt.org/db.html
또 다른 하나 http://www.user-agents.org/이 (R = 로봇, 크롤러, 거미의 범례를 참조하십시오) : http://www.karavadra.net/blog/2010/list-of-crawlers-bots-and-their-ip-addresses/
1
Web Robots Page가 포함 된 list of known crawlers/robots을 포함을 잘 작동하고 (데이터베이스에 나열된) 알려진 봇을 식별하는 데 사용할 수있는 사용자 에이전트 패턴.
그러나 DaveR에 따르면 규칙을 무시하는 사람을 막는 것은 어렵지만 모든 크롤러가 robotstxt.org 데이터베이스에있는 것은 아닙니다.
관련 문제
- 1. 적대적인 웹 크롤러 식별
- 2. 사용자 에이전트에서 어떻게합니까?
- 3. 사용자 에이전트에서 핸드셋 이름 추출
- 4. 사용자 에이전트에서 브라우저 요소를 추출하는 중
- 5. 사용자 에이전트에서 크롬 버전 구문 분석
- 6. 전화 사용자 식별 프로세스
- 7. 파이썬 크롤러
- 8. Django Authorization-보기에서 사용자 식별
- 9. 사용자 시작 웹 요청 식별
- 10. 트위터 우정을위한 크롤러
- 11. 웹 크롤러 구축
- 12. 사용자 에이전트에서 장치 (모바일)를 탐지하는 PHP 스크립트?
- 13. IE8 사용자 에이전트에서 chromeframe을 어떻게 제거 할 수 있습니까?
- 14. TFS 빌드 에이전트에서 사용자 모드 작업의 자동화 된 테스트
- 15. 크롤러/검색 엔진은 웹을 어떻게 통과합니까?
- 16. TeamCity 에이전트에서 FileDownloadHandler를 사용할 수 없습니다.
- 17. 백그라운드 에이전트에서 실행중인 프로파일 러
- 18. 특정 에이전트에서 TeamCity를 강제 빌드
- 19. 인라인 에이전트에서 로컬 변수에 액세스
- 20. 식별 및 비 식별 관계
- 21. iPhone 사용자 식별 iTunes Store 지역?
- 22. 자체 생성 인증서를 사용하는 사용자 식별
- 23. 크로스 사이트 게시물 요청에서 사용자 식별
- 24. API를 통해 광고를 클릭하는 사용자 식별
- 25. 여러 브라우저/ISP 연결에서 동일한 사용자 식별
- 26. Google Checkout 가입 : 사용자 식별 방법
- 27. 앱에서 정보를 숨긴 페이스 북 사용자 식별
- 28. Android 애플리케이션에서 Google 계정으로 사용자 식별
- 29. 웹 서비스를 호출 한 사용자 식별
- 30. 웹 서버 측에서 다른 사용자 시스템 식별
Welcome to StackOverflow. 이 사이트는 프로그래밍 Q & A 용입니다. 질문에는 일반적으로 깨지지 않은 소스 코드가 포함되어 있습니다. 대신이 질문을 http://webmasters.stackexchange.com/에서 질문하려고합니다. – Graham