0

'PageJacking'은 'WebCrawlers'와 잘 어울리는 웹 사이트를 만들고 일반 사용자는 광고/홍보 콘텐츠를 표시합니다. 단순히 웹 사이트가 Good Boy를 'Webcrawler'로 가장하는 반면, 사용자는 그렇지 않습니다.'PageJacking'의 솔루션은 무엇입니까?

위키 : http://en.wikipedia.org/wiki/Pagejacking

크롤러 피할 수있는 방법 날조 웹 사이트 (PageJacking)?

+0

정확하게 피하려고하는 문제는 무엇입니까? 웹 크롤러를 디자인하고 있습니까? –

+0

@DavidSchwartz 저는 지금 크롤러를 만들고 있지 않습니다. 크롤러가 '페이지 재킹'을 피하는 방법을 알고 싶습니까? –

+0

크롤러에서 페이지 재킹이 문제가되는 방법 또는 이유에 따라 다릅니다. –

답변

0

User agent spoofing.

검색 엔진은 두 개의 로봇을 보낼 수 :

  • 진정한 User-Agent HTTP 헤더와 봇 (일반적인 브라우저의 User-Agent HTTP 헤더가
  • 봇 (검색 엔진 봇 것으로 자신을 드러내는) 인간 방문자를 흉내 낸다)

이제 검색 엔진은 두 봇이 얻은 결과를 비교할 수있다.

관련 문제