2012-08-23 3 views
1

주어진 tld로 끝나는 사이트를 "모두"찾는 방법을 찾고 있습니다. 나는 그것을 실현하는 방법에 대한 몇 가지 아이디어를 가지고 있었지만, 이것을 실현하는 가장 효과적이고 효과적인 방법이 무엇인지 모르겠습니다. 나는 아무데도 링크 된 페이지가 거미 등으로는 찾을 수 없다는 것을 알고 있습니다. 따라서이 예제에서는 격리 된 페이지는 신경 쓰지 않을 것입니다. 내가하고 싶은, 내 programm에 대한 입력으로 TLD를 갖고 싶습니다. 그리고 출력으로 사이트 목록을 가지고 있습니다. 예 :한 국가의 "모든"도메인 찾기.

# <program> .de 
- spiegel.de 
- deutsche-bank.de 
... 
- bild.de 

이렇게 도달하는 가장 좋은 방법은 무엇입니까? 나를 도울 수있는 도구가 있습니까, 아니면 어떻게 프로그램 할 수 있습니까?

+0

확실한가요? DNS 영역 전송은 귀하가 AXFR http://en.wikipedia.org/wiki/DNS_zone_transfer – rene

+0

안녕하세요 르네를 대답 할 권한이있는 경우에만 귀하에게 목록을 제공 할 수 있습니다. 귀하의 게시물에 대한 조사를 수행했는데 하나의 도메인에 대해 이러한 AXFR 쿼리를 수행 할 수있게되었습니다. 이제는 전체 TLD에 대해 어떻게 할 것인지 확신 할 수 없으므로 테스트를 위해 dig를 사용했습니다. 더 나은 도구가 있습니까? – user1620678

+0

AFAIK 야생에있는 DNS 서버는 권한이없는 서버에 대해 AXFR 명령을 허용하지 않습니다. 그런 공구가 존재하는 경우에 dig는 업무까지 일 것 인다. – rene

답변

0

이 답변은 조금 늦을 수 있지만 방금 찾았습니다.

일반 크롤러 멋진 데이터를 사용해 볼 수 있습니다.

그래서 일반적인 크롤러는 무엇입니까?

일반적인 크롤링 연구와 분석의 목적을 위해 무료로 인터넷 연구자, 기업 및 개인에게 인터넷의 사본을 제공 전용 (3) 비영리 단체 501 (C)입니다. 다음 json 파일로 결과를 다운로드 .de 그들의 url search tool 쿼리를 사용

.

좋은 결과 파일을 얻을 수 있습니다. 도메인의 모든 사이트 맵 (크롤링)을 얻었으므로 일부 작업을 수행해야합니다. 크롤러에 대해 환영받지 않는 robot.txt 파일을 사용하는 사이트가 있습니다. 포함되지는 않지만 여전히 지금까지 찾을 수있는 최상의 결과입니다.