불법 사용에 대한 정보를 수집하는 웹 크롤러를 식별 할 수있는 기술이 있는지 궁금합니다. 명확하게 말해서, 사이트의 카본 복사본을 만드는 데이터 도용.적대적인 웹 크롤러 식별
이 시스템은 알 수없는 소스 (Google 크롤러 등의 목록에없는 경우)에서 크롤링 패턴을 감지하고 긁적 크롤러에게 가짜 정보를 보냅니다.
- 방어자로서 정기적으로 사이트를 치는 알 수없는 크롤러를 발견하면 공격자가 간격을 무작위로 지정합니다.
- 수비수로서 동일한 에이전트/IP를 탐지 한 경우 공격자가 에이전트를 무작위 추출합니다. 나는 같은 네트워크에서 사이트를 타격 프록시와 기계에 대해 어떻게 차별하지것, 공격자가 간격 및 에이전트를 무작위 경우 -
는 그리고 이것은 내가 길을 잃지 어디?
나는 자바 스크립트 및 쿠키 지원으로 의심스러운 에이전트를 확인하려고합니다. 보기가 일관되게 할 수 없다면 나쁜 사람입니다.
그 밖의 무엇을 할 수 있습니까? 과거 데이터에 대한 신속한 분석을 위해 설계된 알고리즘 또는 시스템이 있습니까?
공격자가 크롤러를 변경하여 숨겨진 링크를 무시하지 않도록하려면 어떻게해야합니까? 자동화 된 스캐닝과 .css를 링크 또는 링크 영역 클래스와 비교하거나 소스를 매일 살펴보고 크롤러의 링크 무시 목록으로 빠르게 변경하십시오. 트랩 링크를 피하기 위해 링크 콘텐츠의 품질을 확인하는 알고리즘을 만드는 경우 어떻게해야합니까? – ian
은 CSS에 의한 링크를 숨기지 않고 Google bot에 의한 속임수로 간주됩니다 (어떤 목적이든 상관 없습니다). – Marek
멋진 트릭은 robots.txt에서 허용하지 않는 허니팟을 언급하는 것입니다. (그리고 어디에도 링크되어 있지 않습니다.) 일부 악의적 인 로봇은 파일을 읽은 다음 수분이 많은 데이터를 찾기 위해 허용되지 않는 링크를 크롤링하고 블램! 금지! – Piskvor