2011-10-16 2 views
5

robots.txt에서 Google 로봇 웹 사이트를 크롤링하도록 설정하거나 크롤링하지 않도록 지정할 수 있습니다. 반면에 Google은 Google 웹 마스터의 크롤링 속도 (Google 봇이 웹 사이트를 얼마나 크롤링하는지)를 제어 할 수 있습니다. robots.txt로 크롤러 활동을 제한 할 수 있는지 궁금합니다.robots.txt로 크롤링 속도를 제어 할 수 있습니까?

봇이 페이지를 크롤링 할 수는 있지만 시간이나 페이지 또는 크기에 따라 제한됩니다.

답변

2

아니요. Robots.txt는 봇에 포함 시키거나 제외시키려는 디렉토리 또는 파일을 저장하는 장소입니다. 방법이 있다면 그것은 아직 표준이 아닙니다. 봇을 만드는 사람은 누구든지 robots.txt를 존중할지 여부를 선택합니다. 모든 봇 ("봇 봇")이이 파일을 존중하지는 않습니다.

현재 크롤링 속도, 사이트에 머문 시간 등을 줄이기위한 설정이 있다면 봇 단위로 이루어지며 robots.txt 값으로 표준화되지 않습니다.

상세 정보 : http://www.robotstxt.org/robotstxt.html

1

아니는 robots.txt 파일은 당신이 색인하지 않으와 사용자 에이전트 그 규칙도 적용 할 페이지를 지정할 수 있습니다. 이 파일로는 다른 일을 할 수 없습니다.

일부 웹 사이트에서는 AllowSitemap 지시어를 사용하지만 일부 크롤러가 웹 사이트를 존중할 수는 있지만 공식 웹 사이트에 따라 올바른 지시문으로 보이지 않습니다.

5

robots.txt에서 사용할 수있는 지시문은 "크롤링 지연"입니다.

예 : 크롤링 지연 : 5

의미 로봇 5 초 당 하나 이상의 페이지를 크롤링되어서는 안된다. 그러나이 지시어는 내가 아는 한 robots.txt에서 공식적으로 지원하지 않습니다.

또한 robots.txt 파일을 전혀 계산하지 않는 로봇도 있습니다. 일부 페이지에 대한 액세스를 허용하지 않은 경우에도 Google과 같은 가장 큰 로봇이 아닌 일부 로봇이 여전히 크롤링 할 수 있습니다.

예를 들어 Baidu는 robots.txt를 무시할 수 있지만 확실하지 않습니다.

나는이 정보에 대한 공식적인 출처가 없으므로 Google에 알려주세요.

+1

마지막으로, Googlebot이 크롤링 지연을 무시, 그래서 이것은 실제로 구글 도움이되지 않습니다. 하지만 몇 가지 다른 봇에 대한 것입니다. 어떤 봇에 대한 정보가 없다면,이 대답은 다소 불완전합니다. – derobert

+2

'Crawl-Delay'에 대한 추가 정보는 다음과 같은 질문을 참조하십시오 : http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -user-agent –

+1

크롤링 지연은 표준에 포함되지 않지만 일부 봇은이를 존중합니다. https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026

0

나는 이것이 정말 오래된 질문 알지만, 나는 여기에 구글 문서에 따라 공식 답변입니다 추가하고 싶었 :

당신은 일반적으로 귀하의 구글 웹 마스터 도구에서 크롤링 속도 설정을 조정할 수 있습니다 계정. 당

: 웹 마스터 - 도구 내에서 https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

당신은 다음 단계를 수행 할 수 있습니다

  1. 을 검색 콘솔 홈페이지에서 원하는 사이트를 클릭합니다.

  2. 톱니 바퀴 아이콘을 클릭 한 다음 사이트 설정을 클릭합니다.

  3. 크롤링 속도 섹션에서 원하는 옵션을 선택한 다음 원하는대로 크롤링 속도를 제한하십시오.

새로운 크롤링 속도는 90 일간 유효합니다.

심판 : 내가들은 google support question

+0

방금 ​​크롤링 속도를 설정하면 90 일이 아닌 1 개월 동안 유효하다고 표시됩니다. – Sharky

+0

@Sharky Google은 문서가 업데이트 되었습니까? :-) – john

관련 문제