2009-06-09 2 views
3

나는 재미있는 검색 엔진을 구축하고 있으며, 광고 및 각종 문제를 클릭하여 잠재적으로 내 작은 프로젝트가 악재가 될 수도 있음을 깨달았습니다.good webcrawler 'Etiquette'에 대한 지침

좋은 웹 크롤러 '에티켓'에 대한 가이드 라인은 무엇입니까?

  1. 있는 robot.txt 지침
  2. 제한
  3. 광고 링크를 따라하지 마십시오 동일한 도메인에 대한 동시 요청의 수를 관찰 : 마음에 봄이 있음을

    것?

광고를 클릭에서 크롤러를 중지 -이 사람은 내가 어떻게 광고를 '클릭'에서 내 로봇을 중지 할 ... 순간 내 마음에 특히입니까? 광고에서 URL로 곧장 간다면 클릭으로 집계됩니까?

+0

도메인 robot.txt를 찾고 파싱하는 데 유용한 리소스가있는 사람이 있습니까? –

+0

http://www.robotstxt.org/는 사실상의 참조입니다. 그것은 내가 일하는 곳에서 차단 된 것처럼 보이므로, 나는 그것을 확인할 수 없다. 우리가 webapps를 만들기 때문에, 일종의 아이러니. – Powerlord

답변

3

robots.txt 명령 만 읽지는 않습니다. meta tags with noindex and nofollow도 표시되어야합니다.

광고 질문에 대해서는 확실하지 않지만 링크를 읽은 다음 다른 시간에 페이지를 입력하면 입력 한 페이지에 주소가 어떻게 표시되는지에 대한 정보가없고 ' "pseudoclick"에 대한 사이트를 청구하지 마십시오

2

rel = "nofollow"로 표시된 링크를 추적하지 마십시오.

또한 광고에 대해 걱정할 필요가 없습니다. 페이지의 HTML 텍스트 만 거미줄로 보내면 대부분의 경우 광고 링크가 표시되지 않습니다. 자바 스크립트를 사용하여 클라이언트에서 생성됩니다.