도메인의 모든 웹 페이지 및 하위 도메인을 찾는 방법을 찾고 있습니다. 예를 들어 uoregon.edu 도메인에서이 도메인과 모든 하위 도메인 (예 : cs.uoregon.edu)의 모든 웹 페이지를 찾고 싶습니다.도메인 및 해당 하위 도메인의 모든 웹 페이지 찾기
나는 누치를보고 있었고, 나는 그것이 일을 할 수 있다고 생각한다. 그러나, 그것은 nutch가 전체 웹 페이지를 다운로드하고 나중에 검색 할 수 있도록 색인을 붙이는 것으로 보입니다. 그러나 동일한 도메인에 속한 URL에 대해서만 웹 페이지를 검색하는 크롤러가 필요합니다. 또한, nutch는 linkdb를 직렬화 된 형식으로 저장하는 것으로 보입니다. 어떻게 읽을 수 있습니까? 나는 solr을 시도했고 nutch의 수집 된 데이터를 읽을 수있다. 그러나, 나는 아무 수색도하고 있지 않기 때문에 나는 solr를 필요로하지 않는다고 생각한다. 필요한 것은 주어진 도메인에 속한 URL입니다.
감사
당신은 http://www.crawlmysite.in을 사용할 수 있습니다. – Tushar