2012-04-22 5 views
3

도메인의 모든 웹 페이지 및 하위 도메인을 찾는 방법을 찾고 있습니다. 예를 들어 uoregon.edu 도메인에서이 도메인과 모든 하위 도메인 (예 : cs.uoregon.edu)의 모든 웹 페이지를 찾고 싶습니다.도메인 및 해당 하위 도메인의 모든 웹 페이지 찾기

나는 누치를보고 있었고, 나는 그것이 일을 할 수 있다고 생각한다. 그러나, 그것은 nutch가 전체 웹 페이지를 다운로드하고 나중에 검색 할 수 있도록 색인을 붙이는 것으로 보입니다. 그러나 동일한 도메인에 속한 URL에 대해서만 웹 페이지를 검색하는 크롤러가 필요합니다. 또한, nutch는 linkdb를 직렬화 된 형식으로 저장하는 것으로 보입니다. 어떻게 읽을 수 있습니까? 나는 solr을 시도했고 nutch의 수집 된 데이터를 읽을 수있다. 그러나, 나는 아무 수색도하고 있지 않기 때문에 나는 solr를 필요로하지 않는다고 생각한다. 필요한 것은 주어진 도메인에 속한 URL입니다.

감사

+0

당신은 http://www.crawlmysite.in을 사용할 수 있습니다. – Tushar

답변

4

당신이 루비에 익숙하다면, 말미잘을 사용하는 것이 좋습니다. 멋진 크롤링 프레임 워크. 여기에 바로 사용할 수있는 샘플 코드가 있습니다.

require 'anemone' 

urls = [] 

Anemone.crawl(site_url) 
    anemone.on_every_page do |page| 
    urls << page.url 
    end 
end 

https://github.com/chriskite/anemone

면책 조항 : 당신은 하위 도메인을 크롤링 문제에서 패치를 사용할 필요하고 최대 페이지 수를 추가하는 것을 고려 할 수 있습니다.

+0

나는 곰을 시험해 보았습니다. 적어도 도메인에 대해서는 모든 콘텐츠를 찾는 훌륭한 작업을하고 있습니다. 나는 아직 서브 도메인을 시도하지 않았다. 감사. – gmemon

+0

여기에 하위 도메인에 대한 직접 링크가 있습니다. https://github.com/chriskite/anemone/issues/18 또한 내 게시물을 답장으로 표시하면 미래의 사람들이이 사실을 알게 될 것입니다. 그들의 문제에 대한 해결책. – sunnyrjuneja

0

주어진 도메인의 모든 하위 도메인을 찾는 가장 쉬운 방법은 해당 사이트의 DNS 관리자에게 DNS Zone Transfer 또는 해당 영역 파일을 제공하도록 요청하는 것입니다. 영역에 wildcard DNS entries이 있으면 와일드 카드 DNS 항목에 대한 요청에 응답하는 서버의 구성 (가능하면 코드)을 가져와야합니다. 도메인 이름 공간의 일부가 다른 DNS 서버에서 처리 될 수 있다는 것을 잊지 마십시오. 모든 DNS 서버에서 데이터를 가져와야합니다.

이것은 서버 구성 파일이나 서버를 실행하는 응용 프로그램 코드로 구운 다른 이름에 대한 요청에 대해 HTTP 서버가 다르게 처리 할 수 ​​있거나 서버를 실행하는 응용 프로그램 코드가 데이터베이스 조회를 수행하여 주어진 이름과 관련있다. FTP는 이름 기반 가상 호스팅을 제공하지 않으며 관심있는 다른 서비스는 이름 기반 가상 호스팅 프로토콜을 제공하거나 제공하지 않을 수 있습니다.

관련 문제