웹 크롤링에 대한 기사를 읽고 크롤링의 기본 사항을 배웠습니다. 그들에 따르면, 웹 크롤러는 다른 웹 페이지에서 검색된 URL을 사용하여 실제로는 메시 (메시)를 사용합니다.크롤러가 최대 적용 범위를 어떻게 보장합니까?
크롤러가 어떻게 최대 수용 범위를 보장합니까? 분명히 다른 페이지/사이트의 추천 링크가없는 많은 사이트가있을 수 있습니다. 검색 엔진이 크롤링 및 수동 등록 이외의 다른 메커니즘을 따르고 있습니까? (예 : 도메인 레지스트리에서 정보 가져 오기)
크롤링을 기반으로하는 경우 크롤링을 시작하기 위해 "루트"사이트를 어떻게 선택해야합니까? (결과를 예측할 수있는 방법이 없습니다. 링크를 공개하지 않고 100 개의 사이트를 선택하면 엔진은 100 개의 사이트 + 내부 페이지 만 생성합니다)
같은 소셜 북마크 사이트 http://www.sitemaps.org/ –
을보십시오. Sitemap은 특정 사이트의 내부 페이지를 탐색하는 데 유용합니다. 그러나 사이트 맵을 얻으려면 사이트 "홈"을 어떻게 알 수 있습니까? –
루트 페이지에 항상 'sitemap.xml'이 있어야합니다 : http://www.example.com/sitemap.xml –