불완전한 robots.txt, 어떻게됩니까?

나는 웹 사이트에 페이지가 있으며 다른 페이지에 대한 액세스 권한이 없습니다. 이 웹 사이트는 다양한 소형 제품을 판매하는 데 사용됩니다. 1 년 넘게 구글 애드 워즈를 사용하여 나 자신을 홍보하는 데 도움을 얻은 후에 제품 페이지 중 어느 것도 Google에서 색인을 생성하지 않은 것으로 나타났습니다. 사이트의 robots.txt에 많은 내용이 포함되어 있지 않으며이 파일과 관련이 있는지 궁금해졌습니다.불완전한 robots.txt, 어떻게됩니까?

제품의 URL의 형식은 다음과 같습니다

www.example.com/myshopname/[product ID]?q=I[product ID]

을 그리고 robots.txt에 간단하다 :

Disallow: /*_escaped_fragment_

에는 사용자 에이전트가 없습니다. Google이 내 페이지 크롤링에 어떤 영향을 주는지 또는 user-agent가 지정되지 않아 robots.txt를 무시하는 것인지 궁금합니다.

robots.txt 파일들이 파일에 액세스하거나 할 수없는 경우 webcrawlers 알려줍니다 웹 서버에 간단한 텍스트 파일입니다

출처

2016-10-02 Alex

는 여기에 몇 가지 더 자세한 정보를 얻을 수 : https://moz.com/learn/seo/robotstxt – Franco

@Franco 나는 불완전한있는 robot.txt 파일에 대한 로봇에 대한 문서, 아무것도를 참조하십시오. 내가 아는 바로는, 먼저 사용자 에이전트를 입력 한 다음 disallow 규칙을 입력해야합니다. 나는 ... 어떤 사용자 에이전트를 지정하지 않으면 어떻게되는지 확실하지 않다 사용자 에이전트는 *, 또는 사용자 에이전트가 제공되지 않기 때문에 그것을 단순히 허용 안 규칙을 무시하는 것처럼 로봇의 역할을 수행. 사용자 에이전트가 *로 작동하는 경우 규칙이 어떻게 적용됩니까? AJAX 크롤링은 이제 더 이상 사용되지 않으므로 해당 규칙을 무시합니까? – Alex

이 로봇.각 레코드에 하나 이상의 User-agent 및 적어도 하나의 Disallow 행이 필요하기 때문에 txt는 유효하지 않습니다 (original specification에 따라).

사양은 소비자가 잘못된 레코드를 해석해야한다고 말하지 않습니다.

그래서, 추측 :

엄격한 소비자들은이 유효하지 않은 기록을 무시합니다.
이
```
User-agent: * 
Disallow: 
```
(즉, 모든 것이 허용된다)
예의 바른 소비자가 가정 할 수 이러한 소비자를 들어, robots.txt 파일이 하나에 해당하는 존재의 robots.txt에 해당하는 것 저자가이 레코드에 대해 User-agent: *을 갖기를 의도했습니다. 이러한 소비자를 들어, robots.txt 파일이 하나에 해당 될 것입니다 :
```
User-agent: * 
Disallow: /*_escaped_fragment_ 
```

이 당신의 robots.txt는 (대부분) (그 경로 /myshopname/로 시작하는 URL을 크롤링에는 소비자를 중지하지 않습니다 URL이 일부 소비자가 크롤링 중지 될 경우에 _escaped_fragment_를 포함하지 않는, 즉, 와일드 카드로 * 해석 할 것들, 방법 원래 사양의 일부)에 의해이다.

출처

2016-10-03 22:41:16 unor

고마워,이게 내가 찾고 있었던거야. 로봇이 그것이 해석을 시도하는 방법에 따라 달라집니다 크롤 경우 같아요. – Alex

난 당신에게 여기에 몇 가지 더 많은 정보를 제공 할 것입니다. 서버 시스템 파일에는 포함되어 있지 않지만 사이트의 일부인이 파일에 항상 액세스 할 수 있습니다.

User-agent: * 
Disallow:

하는 것은 허용 :

User-agent: * 
Disallow:/

모든 크롤러에 대한 접근이 동안

을 차단합니다 : 귀하의 경우

나는 무엇을이 /*_escaped_fragment_ 수단 모르겠지만 귀하의 웹 사이트에 대한 전체 액세스 권한.

User-agent: * 
Disallow: /images/

는 지정된 폴더 당신은 항상 그 폴더에 지정된 파일에 대한 액세스 권한을 부여 할 수있는 폴더를 허용하더라도

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg

에 대한 액세스를 차단합니다.

User-agent: Googlebot

을 특별히 경우 :

User-agent: * 
Disallow: /assets.html

당신이해야 할 지정된 크롤러에 지침을 적용하려는 경우

는 그래서 star 모든 크롤러를 의미 지정된 파일에 대한 액세스를 차단합니다 googlebot에 관심이 있다면 robot.txt가 사이트의 파일이나 폴더를 차단하는지보고 싶다면 https://developers.google.com/을 방문하면 페이지 리소스를 차단하고 있는지 확인할 수 있습니다.

robot.txt가 귀하의 SEO에 유용한 도구가 될 수 있지만, 적용된 지침은 모든 일반 크롤러가 준수해야한다고 말하기도합니다.

악의적 인 크롤러는 해당 지침을 신경 쓰지 않습니다.

출처

2016-10-03 08:50:57 Franco

robots.txt가 무엇인지, 사용법 및 문서가 무엇인지 이미 알고있었습니다. 제 질문은, ** 불완전한 ** 로봇 파일을 어떻게 읽을 것입니까? – Alex

불완전한 robots.txt, 어떻게됩니까?

답변

관련 문제