해결해야 할 두 가지 문제가 있습니다.
첫 번째 : 당신은 세계 모든 URL의 실제 중앙 디렉토리가없는, 심지어 당신이 모든 사이트에 사이트 맵을 필요가 없습니다 당신은 알고
아이디어는 검색 여부를 확인하는 것입니다 엔진 (Google 또는 기타)을 사용하면 검색을 위해 콘텐츠 수준 대신 URL 수준에서 작업 할 수 있습니다. 그런 다음 정규 표현식과 일치하는 사이트 목록을 반환하고 검색을 시도 할 수있는 검색어를 생성합니다.
두 번째 : 자원으로 기능을 노출 할 수 있습니다 특정 웹 서비스를 들어, 정규식
당신은이 문제를 피하기 위해 몇 가지 검사를 사용할 수 일치 무한 URL 목록을 가질 수있다.
그건 그렇고, 모든 검색 엔진과 같은 문제에 직면하고 있습니다 ... 모든 웹 목록을 만들고 있습니다. 아무도이 문제를 해결하지 못했습니다.
편집 : webcrawler
기본 알고리즘
take a list of seed sites
for each seed
parse the webpage returned
add each link found in the page to the seed list
apply some algorithms for referencing the page to several keywords in a db
나는 당신이 원하는 무엇을 이해하지? 웹 페이지의 내용에 'grep'을 사용하거나 WWW에서 정규 표현식과 일치하는 모든 URL을 찾고 싶습니까? – Kaltezar
'grep'을 동사로 사용했습니다 ... "정규식과 일치하는 WWW에서 모든 URL을 찾고 싶습니다." – Lazer