2013-08-23 4 views
0

googles 크롤러 로봇이 "연결할 수없는 robots.txt"때문에 특정 사이트를 크롤링하는 것을 중지 한 Google 웹 마스터 도구에서 알림을 받았습니다. 불행히도 Google은 그 이상의 크롤러 오류에 대한 추가 세부 정보를 제공하지 않습니다.Django 앱에서 연결할 수없는 Robots.txt

나는

<meta name="robots" content="index, follow"> 

내가 모든 장고 애플 리케이션을 위해 할 base.html 템플릿 내 메타 태그의 하나로 포함 내 다른 사이트의에이 문제가 아니에요있다. 내가 잘못했다면 나를 바로 잡으십시오.하지만 robots.txt가 Google에서 색인을 생성 할 필요가 없다고 생각했습니다.

(r'^robots\.txt$', include('robots.urls')), 

내 최신 구글 크롤러가 가져 오기 (자극에 장고 - 로봇을 누른 후) 아직 반환 :

나는 설치 및 구성 장고 - 로봇 ( https://github.com/jezdez/django-robots를) 내 URL의 conf이를 추가하여 해결하기 위해 시도 그래도 같은 오류.

robots.txt 파일을 포함하지 않아도 특별한 크롤링 규칙이 없으므로 Google에서 전체 사이트를 색인 생성합니다. 누구나 여기에 언급 된 다른 두 가지 방법으로 실험하기 전에 빠른 수정에 대한 생각을 가지고 계신 분 http://fredericiana.com/2010/06/09/three-ways-to-add-a-robots-txt-to-your-django-project/?

+0

robots.txt URL에 직접 액세스하려고하면 어떻게됩니까? –

+0

그냥 404 페이지에 도달 –

+0

[Google에 따르면] (https://support.google.com/webmasters/answer/1067240?hl=ko)이 메시지는 한 번에 귀하의 서버가 5xx 오류 메시지를 제공함을 의미합니다. 곧장 404. urls.py에서 robots.txt 항목을 제거하고 Google 웹 마스터 도구에서 'Fetch As Google'기능을 사용해보십시오. "Not found"상태가 표시됩니다. –

답변

0

robots.txt 행을 완전히 삭제하고 Google로 가져 오려고했지만 문제가 해결되지 않았습니다.

(r'^robots\.txt$', include('robots.urls')), 

나는 약간

from django.http import HttpResponse 


(r'^robots\.txt$', lambda r: HttpResponse("User-agent: *\nDisallow: /*", mimetype="text/plain")), 

지금 Googlebot이 그것을 확인 크롤링 내 루트 urlconf을 수정하여이 문제를 해결했습니다. 이 특정 솔루션이 왜 효과적 이었는지 더 잘 이해하기를 바랍니다. 그러나 효과적입니다.

Ludwik에게 도움을 주셔서 감사합니다.

0

당신이 허락에게 virtual host에 다음

Alias /robots.txt /var/www/---your path ---/PyBot/robots.txt 

추가 별칭이있는 경우. (아파치 설정 파일에서) 유사하게 favicon의 내용

Alias /favicon.ico /var/www/aktel/workspace1/PyBot/PyBot/static/favicon.ico