2014-04-26 4 views
0

기본적으로 내 고객 구글 웹 마스터 도구에 젠토 웹 사이트의 URL을 차단할 수 있습니다하면 인덱스 상태 페이지에 우리가 1911 페이지가 그, 정말 이상한 결과를 보여주고있다 그리고 우리가 나타났습니다이 색인 생성되었습니다. 이제이 비트가 올바르지 만 고급 탭을 클릭하면 6,947 URL이 차단 된 것으로 나타납니다. 이제 질문이 필요합니다. 6,947 URL이 차단되었을 때 웹 사이트에만 1,911 페이지의 색인이 생성 되었습니까?젠토 - robots.txt에 Google 웹 마스터 도구

이제 차단 된 URL이 Magento 내에있는 중복 된 이미지 일 수 있습니다. 나에게 이것은 우리 시스템에서 많은 중복 이미지가있는 것처럼 의미가 있지만, 이것이 차단 된 URL의 원인인지 확신 할 수 없습니다.

또 다른 문제는 robots.txt 파일 자체에있을 수 있습니다. 그래서 파일을 살펴보고 모든 것이 잘 보였지만 'Disallow :/404/'과 같은 각 줄이 잘못된 방향을 가리킬 수 있습니다. 나는 '/ 404 /' 절에서는 루트 것 같아요 웹 사이트의 'public_html이' 섹션 내에 있도록

의 Clients 웹 사이트는 서버의 루트에 위치해있다. 그래서 다음과 같이 robots.txt 파일 내의 각 줄의 시작 부분에 웹 사이트 폴더 이름을 추가해야합니다 :/[Folder_Name]/404 /?

이 점을 이해하는 데 도움이된다면 벽에 부딪힌 것 같은 기분이들 것입니다. 나는 그것이 도움이 될 수 있다면 Magento 버전이 1.5라고 생각한다.

도움을 다시 주셔서 감사합니다.

의 robots.txt 파일의 코드 서버는 중요하지 않습니다 폴더를 처리하는 방법

User-agent: * 

Allow:/
Sitemap: http://www.websitename/sitemap.xml 

# Directories 
Disallow: /404/ 
Disallow: /app/ 
Disallow: /cgi-bin/ 
Disallow: /downloader/ 
Disallow: /includes/ 
Disallow: /js/ 
Disallow: /lib/ 
Disallow: /magento/ 
Disallow: /pkginfo/ 
Disallow: /report/ 
Disallow: /skin/ 
Disallow: /stats/ 
Disallow: /var/ 
# Paths (clean URLs) 
Disallow: /index.php/ 
Disallow: /catalog/product_compare/ 
Disallow: /catalog/category/view/ 
Disallow: /catalog/product/view/ 
Disallow: /catalogsearch/ 
Disallow: /checkout/ 
Disallow: /control/ 
Disallow: /contacts/ 
Disallow: /customer/ 
Disallow: /customize/ 
Disallow: /newsletter/ 
Disallow: /poll/ 
Disallow: /review/ 
Disallow: /sendfriend/ 
Disallow: /tag/ 
Disallow: /wishlist/ 
# Files 
Disallow: /cron.php 
Disallow: /cron.sh 
Disallow: /error_log 
Disallow: /install.php 
Disallow: /LICENSE.html 
Disallow: /LICENSE.txt 
Disallow: /LICENSE_AFL.txt 
Disallow: /STATUS.txt 
# Paths (no clean URLs) 
Disallow: /*?p=*& 
Disallow: /*?SID= 
Disallow: /*?invis= 
Disallow: /*?tag= 
Disallow: /*?osCsid= 
Disallow: /*?manufacturers_id= 
Disallow: /*?currency= 
+0

http://webmasters.stackexchange.com/ 사이트에서 운이 더 좋을지도 모릅니다. –

+0

웹 마스터 도구에 로그인 한 후 크롤링의 차단 된 URL 섹션으로 이동하면 robots.txt에서 귀하의 사이트에 어떤 원인이 있는지 정확히 알 수 있습니다. – Prateek

+0

당신은 정말로 당신의 로봇을 통과해야합니다. 그것은 필요하지 않은 많은 규칙을 가지고 있습니다. – Prateek

답변

1

. robots.txt 파일이 http://example.com/robots.txt에서 액세스 할 수있는 경우

, Disallow: /404/ 같은 규칙을 차단합니다

  • http://example.com/404/
  • http://example.com/404/foo
  • http://example.com/404/foo/bar
,210

또한 당신이 기록에 줄 바꿈을하지해야합니다, 그래서 이것은

User-agent: * 

Allow:/
Sitemap: http://www.websitename/sitemap.xml 

# Directories 
Disallow: /404/ 

은 다음과 같아야합니다

User-agent: * 
Allow:/
Sitemap: http://www.websitename/sitemap.xml 
# Directories 
Disallow: /404/ 

그리고 그것은 당신이 (Allow: /을 필요로하지 않는 것 같다 이는 원래 robots.txt 사양의 일부가 아니지만 Allow을 이해하는 파서의 경우에도 허용되지 않는 모든 것이 허용되는 기본값입니다.


지금은 물어볼 필요 질문은, 어떻게 웹 사이트는 단지 약이 1,911 페이지를 색인 할 때, 차단 된 6947 개 URL을가한다?

여기를 누르면 볼 수 없습니다. Google은 여전히 ​​차단 된 URL을 색인하지만 크롤링 할 수는 없지만 차단 된 모든 URL에 대해서는 이러한 경우가 발생하지 않습니다. 따라서 색인이 생성 된 URL의 수에는 일반적으로 차단 된 URL이 모두 포함되지 않습니다. Google은 차단 된 URL을 방문/크롤링 할 수 없으므로 해당 URL이 얼마나 많은지 또는 존재하는지 알 수 없습니다. Google은 이러한 URL에 대한 링크를 찾을 때 (사이트 내에서뿐만 아니라 외부 사이트에서도) 사용자에 대해 학습합니다.

경로가 /poll/으로 시작하는 다른 URL에 100 개의 링크가있는 경우 Google은이 100 개의 URL을 차단 된 것으로 나열 할 수 있습니다.

+0

차단 된 URL은 robots.txt 파일의 내용으로 인해 발생할 수 있다고 생각하십니까? Magento 내에서 로봇 파일을 사용하지 않고 차단 등이 필요한 특정 페이지가 있습니다. – Blowtar

+0

@LeeEaseman : 각 'Disallow'규칙 라인이 원인 일 수 있습니다. 그것은 '금지'를 사용하는 요지입니다. 그렇지 않습니까? – unor

0

사이트 맵이 robots.txt 파일과 충돌 할 수 있습니다.

Google은 sitemap.xml 파일에있는 모든 것을 색인하려고하지만 robots.txt 파일에 의해 차단 된 페이지를 색인 생성 할 수 없다는 것을 알게됩니다.

내 경우 www.workwearwebshop.nl의 경우 사이트 맵에 robots.txt에 의해 차단 된/catalog/product/view로 시작하는 페이지가 포함되어 있습니다. robots.txt에서 해당 행을 주석 처리하면 Google에서 이러한 제품을 거칠 수 있습니다. Magento는 (카탈로그/제품 /보기 대신 범주 이름으로 시작하는)보다 나은 URL을 가져야합니다.

관련 문제