2009-06-11 5 views
2

스타일링 목적으로 페이지에 더미 텍스트를 삽입하고 싶지만 실제로 내용에 연결하면 안됩니다. 검색 엔진을 차단하는 방법이 있습니까? 아니면 오래된 이미지를 사용해야합니까?특정 html 요소가 검색 엔진에 의해 색인이 생성되는 것을 차단하십시오.

아니면 자바 스크립트를 통해 동적으로로드 할 수 있습니까? 왜냐하면 나는 구글이 자바 스크립트의 특정 금액을 읽습니다 들었어요.

+1

잘 작동하는 검색 엔진을 차단하더라도 악의적 인 사용자가 보안을 무시하거나 회피 할 수 있다는 점에 유의하십시오. –

답변

0

어떤 트릭을 결정할 때 조심해야합니다. 확률은 Google이 사용자가 다른 콘텐츠를 사용자에게 표시하려고한다고 생각할 가능성이 높습니다.

나는 Google이 실제로 (일부 Chrome 렌더링 엔진의 서버 측 버전을 사용하여) 페이지를 렌더링함으로써 실제로 작동한다고 믿었으며 그 결과를 원본과 텍스트가 일치하는지 OCR 소프트웨어로 다시 읽습니다. 사용자는 JS 및 프레임을 사용하도록 설정합니다. Google은 항상 웹 마스터에게 사용자에게 다양한 콘텐츠를 제공하지 말라고 공개적으로 경고했습니다. OCR은 (특히 '인증 자'가 IE의 사용자 에이전트 문자열을 사용하고 Google에서 등록하지 않은 IP 범위에서 크롤링 한 경우) 찾아내는 데 가장 좋은 방법입니다. 다음

짧은 대답, 중 등의 장식을 제공 :

  • iframe이
  • 객체
  • SVG 이미지

당신이 명확하게 페이지 구글에 문서를 연결하기 때문에 것 특히 모든 페이지에 동일한 텍스트가 나타나는 경우 개별 리소스와 속도를 적절하게 고려하십시오. 어느 날 데려 오지 :

전체/대부분의 페이지에 동일한 텍스트 장식을 사용합니까? 만약 그렇다면 구글은 거의 그것을 "창문 드레싱"으로 간주하고 그것을 무시합니다 (분명히 메뉴 등으로 이것을합니다).

+0

Google은 확실히 OCR을 사용하여 페이지를 읽지 않습니다. 그것은 터무니없는 일입니다. –

+0

전혀 어리석은 것이 아닙니다. Google은 세계에서 가장 강력한 데이터 센터를 보유하고 있습니다. 누구나 초당 수백만 개의 HTML 문서를 렌더링하고 스캔 할 수 있다면 그렇게 할 수 있습니다. 말할 것도없이 Google 도서 및 GMail의 스팸 필터 용 OCR 시스템을 이러한 목적에 맞게 사용할 수 있습니다. Google은 항상 검색 엔진에 비해 브라우저에 다른 페이지 콘텐츠를 제공하려고 시도한 사이트에 벌점을가한다고 주장 해 왔습니다.페이지를 렌더링하고 비교하는 것은 이것을 감지하는 완벽하게 합리적인 방법으로 보입니다. 그것이 지금 끝나지 않고 있다면 그것은 단지 시간 문제 일 것입니다. – SpliFF

+0

웹 페이지의 이미지를 렌더링하는 것은 터무니 없습니다! –

1

경계선없는 iframe에 콘텐츠를 표시하고 iframe의 src (완전히 별개의 "페이지")를 검색 엔진에서 차단할 수 있습니까?

또는 javascript로 내용을 추가하고 엔진에서 차단하는 .js 파일에 javascript를 저장 하시겠습니까?

0

페이지로드가 완료된 후 (예 : document.ready 이벤트가 실행될 때) 내용을로드하는 것이 당신이 말하는 것에 대해 매우 안전한 방법이 될 것입니다. 100 % 확실하지는 않습니다.

1

AJAX를 통해 해당 텍스트를로드하는 경우 아마 색인이 생성되지 않습니다. 마지막으로 확인한 경우 GoogleBot은 실제로 JS를 실행하지 않으며 다른 스파이더도 수행하지 않습니다 (그러나 일부 스팸봇은 분명히 수행 할 수 있습니다).

경고 : AJAX 응답에는 URL이 실제로 연결되어있는 경우에 대비하여 X-Robots-Tag: noindex 헤더가 포함되어 있어야합니다.

관련 문제