2011-11-03 3 views
8

요즘에는 검색 단어와 정확히 일치하는 링크가 포함 된 여러 Google 검색 결과가 나타납니다. 사이트가 콘텐츠를 동적으로 변경하는 방법 또는 Google을 속이는 방식으로 내 키워드에 대한 페이지의 색인을 생성하는 방법은 무엇입니까? 콘텐츠 팜에 대해 읽었지만 올바른 대답은 아닌 것 같습니다. 누군가이 기술이 무엇인지 알려 줄 수 있습니까? 나는 그것에 대해 더 많은 것을 이해하려고 노력할 것이다.가짜 링크가 포함 된 사이트가 검색 엔진 결과에 표시되는 방식

답변

8

Google 또는 다른 색인 엔진을 사용하는 유일한 방법은 로봇이 실제로 사이트를 크롤링하고 결과를 생성하도록하는 것입니다. 물론, 구글은 동적 사이트를 크롤링 할 수 있습니다 :

그러나 나는이 질문과 관련하여 진화보다는 혁명적 인 변화로 찾을 수 있습니다.

는 내가 뒤에서 무슨 일이 일어나고 생각하는 것은 이러한 것들의 조합이다 :

  • 내용 인덱스
  • 준비 지수
  • 사용자 제출 한 콘텐츠
  • 추천자 검색 업데이트

필자는 음악을 판매하는 허구의 사이트에서 이들 각각을 설명하려고 노력할 것입니다. 경험을 다시하십시오. 물론 example.com 도메인에 있습니다.

무언가를 제안하고 싶은 사이트와

분명히

콘텐츠 인덱스, 실제로 일부 콘텐츠가 있습니다. 일반적으로이 내용을 어떻게 든 그룹화합니다.

  • 저자
  • 음악 장르
  • 사용자 제출
  • 내용 등급

이들 각각은 태그로 추상적으로 표현 될 수있다 : 우리의 음악 사이트 가정 다른 범주로 그룹화 할 수 있습니다 내용 보자 . 예를 들어, 사이트에서 Eagles를 대표하는 example.com/tags/eagles 또는 모든 rock bands를 나타내는 example.com/tags/rock를 선택할 수 있습니다. Google은 이러한 색인을 생성 할 수 있으므로 잠재적 인 검색으로 인해 Google 사이트로 연결될 수 있습니다.

준비 지수

준비 지수는 비슷하지만, 대신 실제 내용의 일반적인 인덱스입니다.

  • 이 사전을 가지고 (아마도 검색 엔진에서 제공하는 링크를 사용하여 웹에서 모든 단어
  • 크롤링 몇 백만 페이지를 추가 :이은과 같은 여러 가지 방법으로 제조 될 수있다!)와 거기에서 자주 반복되는 문구를 얻을 수
  • 무료 포럼에서
  • 잡아 내용
  • 사용 Wikipeda
  • 같은 Project Gutenberg

에서 것과 자유롭게 사용 가능한 문서에서 텍스트를 가져옵니다 저희 사이트는, 예를 들어, 얻을 것 어떤 방식 으로든 음악과 관련된 텍스트의 단어를 찾아 이전 태그와 비슷한 태그를 만듭니다. 예 : Wikipedia의 Rock music 페이지를 크롤링하면 많은 태그를 얻을 수 있습니다.

사용이 일반적으로 귀하의 사이트가 실행 된 후 오는 무언가 콘텐츠

를 제출했다. 사이트에 검색 창을 넣은 다음 사용자가 들어 와서 "록 음악"을 입력한다고 가정 해 봅시다. Doh, 우리는 이미 그것을 알고 있었기 때문에 그 검색에서 아무 것도 좋지 않았습니다. 그러나 웹 서버 로그 전체에 걸쳐 langeleik에 대한 몇 가지 검색을 살펴 보겠습니다. 이제는 이전에 색인을 생성하지 않았을 수도 있습니다. 멋지다, 우리 사이트에서 또 다른 태그를 생성했습니다.

분명히 Google은이를 알지 못합니다. 따라서 우리는 sitemap에 항목을 만들고 다른 Googlebot 크롤링 이후에 항목을 만듭니다. 사용자가 Google에서 'langeleik'을 검색하면 링크 중 하나가 example.com/tags/langeleik에 대한 링크 일 수 있습니다.

댓글 및 포럼 게시물 등 다른 유용한 정보가 있습니다. 따라서 포럼을 호스팅하는 것 외에 다른 목적이없는 많은 일반 포럼이있는 이유가 있습니다. 훌륭한 데이터 소스이며 새로운 컨텐츠를 무료로 얻을 수 있습니다.

결국이 모든 것은 사이트 사이트 맵으로 이동해야합니다. 당신은 거대한 맵을 가질 수 있습니다,이 참조 :

추천

마지막 일이 추천입니다. 다시 사이트가 실행되고 나면 Google 검색 중 일부가 직접 사용자에게 표시됩니다. 당신이 (예, 그것은 맞춤법이 잘못이다 - Wikipedia에 그것을 밖으로 검사)는 HTTP 리퍼러 헤더를 활용할 수있을 때 그건,이 참조 : Google 검색이 둘 다

하는 것으로 :

  • 불완전
  • 퍼지

위와 같이 "langeleik"를 검색 할 수 있지만 일부 링크에는 제목이 있습니다. "Langeleik와 Harpe". 특이한 것은 없지만 그 반대의 경우도 있습니다. "langeleik and harpe"를 검색하면 인 페이지가 모두이고 페이지가 하나만있는 페이지 만 찾을 수 있습니다. 우리가 harpe를 알고 있지만 langeleik을 알지 못하는 사람이 "langeleik and harpe"를 검색하면 q=langeleik+harpe과 같은 HTTP Referer 헤더 q 매개 변수를 통해 전달됩니다. 멋지다 - 우리가 원한다면 우리 사이트 맵에 추가 할 단어가 생겼다.

fuzziness는 '독수리'를 검색 할 때 새에서 NFL 팀을 통해 록 밴드까지 모든 것을 얻을 수 있다는 점에 유의하십시오. 따라서 우리가 음악 사이트 임에도 불구하고, 원한다면 우리의 지평선을 최신 NFL 뉴스로 확장 할 수 있습니다 - 일부 사이트에는 전혀 관련이 없으며 매우 유용합니다.

결론 - 내가이 모든의 조합이 매우 풍부한 사이트 맵 건물 소스를 고려 환상

입니다. 위의 기술을 사용하여 수백만 개의 고유 태그를 매우 쉽게 생성 할 수 있습니다. 따라서 "아무거나"입력하면 example.com/tags에 있습니다.

그러나 이것은 illusion입니다. 예를 들어 "ertfghedctgb"(일반 QWERTY 키보드에서 쉽게 입력) - ert + fgh + edc + tgb를 검색하면 Google에서 아무것도 얻지 못할 가능성이 높습니다 (현재는 없습니다). 누구나 자신의 사이트 맵에 이것을 넣을 수있는 일반적인 것은 아니 었습니다. (또는 검색 엔진이 색인을 생성하기에 충분하지도 않았습니다.)

+4

이 단어에 ertfghedctgb를 추가하면 해당 단어가 몇 시간 내에 Google 결과가됩니다. – SinistraD

+1

@SinistraD :) 좋은 관찰! –

+1

지금 검색 결과입니다 :) – nathanjosiah

1

모든 브라우저와 크롤러는 의도적으로 소프트웨어에 의해 추가되지 않는 한 모든 요청시 웹 서버에 HTTP_USER_AGENT 문자열을 보냅니다. 이 문자열은 사용 된 브라우저, 버전, 렌더링 엔진 및 자세한 내용을 식별합니다. (http://en.wikipedia.org/wiki/User_agent 참조)

웹 서버는 HTTP_USER_AGENT를 읽고 제공되는 컨텐츠를 변경할 수 있습니다. 예를 들어, 핸드 헬드 장치 또는 대형 화면에있는 것을 감지하는 데 사용되며,이 경우 주어진 웹 페이지의 다른 레이아웃이 필요할 수 있습니다.

사람들은 특히 Google 및 Bing과 같은 대형 검색 엔진을 통해 사이트로 트래픽을 유도하는 데 많은 돈을 투자합니다. 검색 엔진 최적화를 나타내는 SEO라는 용어는 웹 페이지의 소유자가 검색 엔진이 관련 히트를 쉽게 내릴 수 있도록 콘텐츠를 최적화하는 기술입니다. JavaScript와 Ajax를 많이 사용하는 복잡한 사이트가있는 경우 정적 페이지를 검색 엔진에 제공하여 사용자가 귀하의 콘텐츠를 읽을 수 있도록 할 수 있습니다.

악의적 인 사이트는 검색 엔진에서 자동으로 생성되고 SEO에 최적화 된 콘텐츠를 검색하는 경우가 많지만 사용자가 광고를 통해 간단한 페이지에 수익을 올릴 수 있습니다.

이 답변은 icyrock-com에서 이미 설명한 것처럼 일반적인 동적 콘텐츠가 Google보다 다른 페이지를 가져 오는 원인이되는 답변의 대안으로 제공됩니다.

관련 문제