2009-06-04 10 views
4

웹 크롤링에 대한 기사를 읽고 크롤링의 기본 사항을 배웠습니다. 그들에 따르면, 웹 크롤러는 다른 웹 페이지에서 검색된 URL을 사용하여 실제로는 메시 (메시)를 사용합니다.크롤러가 최대 적용 범위를 어떻게 보장합니까?

크롤러가 어떻게 최대 수용 범위를 보장합니까? 분명히 다른 페이지/사이트의 추천 링크가없는 많은 사이트가있을 수 있습니다. 검색 엔진이 크롤링 및 수동 등록 이외의 다른 메커니즘을 따르고 있습니까? (예 : 도메인 레지스트리에서 정보 가져 오기)

크롤링을 기반으로하는 경우 크롤링을 시작하기 위해 "루트"사이트를 어떻게 선택해야합니까? (결과를 예측할 수있는 방법이 없습니다. 링크를 공개하지 않고 100 개의 사이트를 선택하면 엔진은 100 개의 사이트 + 내부 페이지 만 생성합니다)

답변

3

는 분명히 다른 페이지/사이트에서 추천 링크가없는 사이트 이 많이있을 수 있습니다.

나는 이것이 정말로 당신이 생각하는 것처럼 큰 문제는 아니라고 생각합니다.

는 검색 엔진 및 수동 등록을 크롤링 이외의 다른 메커니즘을 수행합니까? (즉, 도메인 레지스트리의 정보를 얻으십시오)

나는 들어 본 적이 없습니다. 그들은 단지 크롤링을 기반으로하는 경우

는 우리는 어떻게 크롤링 시작 "루트"사이트의 좋은 세트를 선택해야 하는가?

open directory project 같은 범용 웹 디렉토리의 모든 종류의 이상적인 후보가 될 것 같은 것 robots.txt에 같은 간단한 표준을 사용하여 솔루션을 디그 또는 del.icio.us

1

크롤러를 돕는 한 가지 방법은 "사이트 맵"입니다. 사이트 맵은 기본적으로 웹 사이트의 콘텐츠를 나열하는 파일이므로 크롤러는 탐색 할 위치를 알고 있습니다. 특히 사이트에 동적 콘텐츠가있는 경우 특히 그렇습니다. 보다 정확한 사이트 맵을 사용하면 크롤러의 정확성이 크게 향상됩니다.

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40318

+0

같은 소셜 북마크 사이트 http://www.sitemaps.org/ –

+0

을보십시오. Sitemap은 특정 사이트의 내부 페이지를 탐색하는 데 유용합니다. 그러나 사이트 맵을 얻으려면 사이트 "홈"을 어떻게 알 수 있습니까? –

+0

루트 페이지에 항상 'sitemap.xml'이 있어야합니다 : http://www.example.com/sitemap.xml –

1

은 크롤러가 이미 크롤링되거나 수동으로 추가되지 않는 다른 사이트에서 참조하지 않는 사이트를 찾을 수 있도록 할 마법 메커니즘이있어하지 : 여기

는 구글 사이트 맵에 대한 몇 가지 정보입니다 크롤러에게.

크롤러는 수동으로 등록 된 (따라서 사전 정의 된) 루트 집합으로 시작하는 링크 그래프 만 탐색합니다. 그래프에서 벗어난 모든 항목은 크롤러에 도달 할 수 없으며이 콘텐츠를 찾을 수있는 방법이 없습니다.

+0

"그래프에서 벗어난 모든 것은 크롤러에 도달 할 수 없으며이 콘텐츠를 찾을 수있는 방법이 없습니다." 우리는 우수한 사이트를 보유 할 수는 있지만 색인 사이트의 추천이나 추천이 없습니다. –

+0

인덱싱 된 사이트의 추천이없는 우수한 사이트는 훌륭한 사이트가 아닙니다. – Emre

관련 문제