2009-05-30 14 views
4

불법 사용에 대한 정보를 수집하는 웹 크롤러를 식별 할 수있는 기술이 있는지 궁금합니다. 명확하게 말해서, 사이트의 카본 복사본을 만드는 데이터 도용.적대적인 웹 크롤러 식별

이 시스템은 알 수없는 소스 (Google 크롤러 등의 목록에없는 경우)에서 크롤링 패턴을 감지하고 긁적 크롤러에게 가짜 정보를 보냅니다.

  • 방어자로서 정기적으로 사이트를 치는 알 수없는 크롤러를 발견하면 공격자가 간격을 무작위로 지정합니다.
  • 수비수로서 동일한 에이전트/IP를 탐지 한 경우 공격자가 에이전트를 무작위 추출합니다. 나는 같은 네트워크에서 사이트를 타격 프록시와 기계에 대해 어떻게 차별하지것, 공격자가 간격 에이전트를 무작위 경우 -

는 그리고 이것은 내가 길을 잃지 어디?

나는 자바 스크립트 및 쿠키 지원으로 의심스러운 에이전트를 확인하려고합니다. 보기가 일관되게 할 수 없다면 나쁜 사람입니다.

그 밖의 무엇을 할 수 있습니까? 과거 데이터에 대한 신속한 분석을 위해 설계된 알고리즘 또는 시스템이 있습니까?

답변

9

내 솔루션은 트랩을 만드는 것입니다. robots.txt에서 액세스가 금지 된 일부 페이지를 사이트에 추가하십시오. 당신의 페이지에 링크를 만들지 만, CSS로 그것을 숨기고, 그 페이지로가는 사람을 금지하십시오.

이것은 위반자가 robots.txt를 따르도록 강요합니다. 즉 중요한 정보 나 서비스를 영구히 멀리 둘 수 있으므로 탄소 복사 복제물이 쓸모 없게됩니다.

+1

공격자가 크롤러를 변경하여 숨겨진 링크를 무시하지 않도록하려면 어떻게해야합니까? 자동화 된 스캐닝과 .css를 링크 또는 링크 영역 클래스와 비교하거나 소스를 매일 살펴보고 크롤러의 링크 무시 목록으로 빠르게 변경하십시오. 트랩 링크를 피하기 위해 링크 콘텐츠의 품질을 확인하는 알고리즘을 만드는 경우 어떻게해야합니까? – ian

+0

은 CSS에 의한 링크를 숨기지 않고 Google bot에 의한 속임수로 간주됩니다 (어떤 목적이든 상관 없습니다). – Marek

+0

멋진 트릭은 robots.txt에서 허용하지 않는 허니팟을 언급하는 것입니다. (그리고 어디에도 링크되어 있지 않습니다.) 일부 악의적 인 로봇은 파일을 읽은 다음 수분이 많은 데이터를 찾기 위해 허용되지 않는 링크를 크롤링하고 블램! 금지! – Piskvor

2

IP 및 타이밍 또는 간격으로 시도하거나 인식하지 마십시오. 크롤러에 보내는 데이터를 사용하여 추적합니다.

잘 알려진 크롤러의 허용 목록을 만드십시오. 정상적으로 콘텐츠를 제공 할 것입니다. 나머지는 검색하는 방법 만 알 수있는 고유 한 콘텐츠 비트가있는 페이지를 제공하십시오. 해당 서명을 사용하여 누가 컨텐츠를 복사하고 차단했는지 나중에 식별하십시오.

2

그리고 낮은 임금을 가진 나라에 사람을 고용하지 못하게하면 브라우저를 사용하여 사이트에 액세스하여 모든 정보를 기록 할 수 있습니까? robots.txt 파일을 설정하고 보안 인프라에 투자하여 DoS 공격을 방지하고 코드를 모호하게 만들고 (자바 스크립트와 같이 액세스 할 수있는 경우) 발명품을 특허하고 저작권을 보호합니다. 법적인 사람들이 당신을 털어내는 것에 대해 걱정하지 마십시오.

+3

이 "운동"의 목적 상 a) 수동으로 복사 할 수있는 데이터가 너무 많습니다. b) 데이터가 자주 변경됩니다. c) 공격자가 누군가를 그렇게하기 위해 돈을 낭비하지 않는 좋지 않은 펑크입니다. –

+0

펑크를 GeoIP로 추적하고 삼촌에게 "거절 할 수없는 제안을하십시오." :-) – tvanfosson