2017-11-27 1 views
1

Google 사이트에서 * .html 파일의 색인을 막고 싶습니다. 그래서 깨끗한 URL이 색인됩니다. Robots.txt - .html 파일의 색인을 방지하십시오.

그래서 나는 색인 www.example.com/en/login 싶습니다하지만 www.example.com/en/login/index.html

현재 내가 가진 :

User-agent: * 
Disallow:/
Disallow: /**.html - not working 
Allow: /$ 
Allow: /*/login* 

을 난 그냥 예를 들어 허용하지 않을 수 있습니다 알고 Disallow: /*/login/index.html,하지만 내 문제는 인덱스 된 싶지 않아 이러한 .html 파일 번호가 - 개별적으로 수행하는 대신 모두 그들을 허용 할 수있는 방법이 있다면 궁금해?

답변

2

먼저 "색인 생성"이라는 단어를 계속 사용하므로 robots.txt 규칙은 자동 크롤러가 도메인의 특정 URL을 피할 것을 제안한다는 점을 확실히 알고 싶습니다. robots.txt 파일에 나열된 페이지는 페이지에 대한 다른 데이터가 있으면 검색 엔진 색인에 계속 표시 될 수 있습니다. 예를 들어 Google explicitly states은 크롤링을 허용하지 않더라도 URL의 색인을 생성하고 나열합니다. "자동화 된 프로그램에 의해 크롤링되는"것이 아니라 "검색 엔진에 나열 됨"을 의미하기 위해 "색인 된"이라는 단어를 사용하는 경우에 대비하여 알고 싶었습니다.

두 번째로, 당신이 원하는 것을 성취 할 수있는 표준 방법이 없습니다. "The Web Robots Pages"당 :

주 또한 대체 (globbing)와 정규 표현식 중 하나를 사용자 에이전트에서 지원 하지을하거나 라인을 허용하지 않습니다. User-agent 필드의 '*'는 "모든 로봇"을 의미하는 특별한 값입니다. 특히 "User-agent : bot", "Disallow :/tmp/*"또는 "Disallow : * .gif"와 같은 줄을 사용할 수 없습니다.

즉, 많은 크롤러가 지원하는 것은 일반적인 추가 사항입니다. 예를 들어 Google's documentation of they directives they support에서 와일드 카드로 *를 사용하는 패턴 일치 지원을 설명합니다. 따라서 Disallow: /*.html$ 지시어를 추가하면 Google은 .html으로 끝나는 URL을 크롤링하지 않지만 여전히 검색 결과에 포함될 수 있습니다. 기본 목표는 당신이 "깨끗한"고려하고 선호하는 어떤 URL 검색 엔진을 말하는 경우

그러나는, 당신은 실제로 Canonical URLs을 지정하는 것입니다 무엇을 찾고 있는지. 각 페이지에 link rel="canonical" 요소를 넣을 수 있으며 해당 요소를 사용하는 검색 엔진은 해당 페이지를 표시 할 때 선호하는 경로를 결정하기 위해이 요소를 사용합니다.

+0

Google 웹 마스터의 robots.txt 테스터에서 'Disallow :/**. html $'을 사용했는데 제대로 작동하는 것으로 보입니다. –

관련 문제