2009-11-30 4 views

답변

3

xml over html을 사용하는 메타 데이터 수집을위한 Open Archives Initiative Protocol이 있습니다. http://www.openarchives.org/Register/BrowseSites

또한 깊은 웹 (Deepnet, 보이지 않는 웹, 어두운 웹 또는 숨겨진 웹)은 표면 웹의 일부가 아닌 월드 와이드 웹 콘텐츠를 말하며 표준 검색 엔진.

상업용 검색 엔진은 깊은 웹을 크롤링하기위한 대체 방법을 모색하기 시작했습니다. Sitemap 프로토콜 (Google에서 처음 개발) 및 mod oai는 검색 엔진 및 기타 이해 당사자가 특정 웹 서버에서 심층적 인 웹 자원을 발견 할 수있게하는 메커니즘입니다. 두 메커니즘 모두 웹 서버가 액세스 할 수있는 URL을 광고 할 수 있으므로 표면 웹에 직접 링크되지 않은 리소스를 자동으로 검색 할 수 있습니다. Google의 심층 웹 서핑 시스템은 각 HTML 양식에 대한 제출물을 미리 계산하고 결과 HTML 페이지를 Google 검색 엔진 색인에 추가합니다. 표면적 인 결과는 깊은 웹 콘텐츠에 대해 초당 수천 개의 쿼리를 처리합니다. 이 시스템에서는, 제출 사전 계산은 세 가지 알고리즘을 사용하여 수행된다

(1), 키워드를 접수 텍스트 검색 입력에 특정의 값을 수용

(2) 식별 입력 된 입력 값을 선택 (예 : 날짜) 및

(3) 웹 검색 색인에 포함하기에 적합한 URL을 생성하는 적은 수의 입력 조합을 선택합니다.

+0

깊은 웹과 어두운 웹은 같은 것이 아닙니다. – ray

1

Google에서 이러한 페이지 중 아무 것도 색인으로 생성 할 수없는 경우 오픈 소스 라이브러리로 어떻게 할 수 있다고 생각하십니까? :)

즉, 조사를 시작하기에 좋은 곳이 될 수있는 딥 웹을 크롤링하는 것과 관련된 몇 가지 링크가 있습니다. 다음은 다른 몇 가지 예입니다.

  • Deep Web Research에는 많은 유용한 참조 정보가 있습니다.
  • deepwebtech.com은 깊은 웹 검색 엔진을 보유하고 있다고 주장하지만 현재는 다운되고 있습니다.
+0

Google의 초점은 딥 웹이 아닙니다. 잠재 능력에 의문을 제기하는 것이 아니라 목적에 맞는 적합성에 의문을 제기합니다. 딥 (deep) 웹은 군수품 및 Google이 색인을 생성하는 데 적합하지 않은 여러 가지 주제와 관련하여 정보의 불법적 인 부분에 대한 방대한 자료입니다. '안전 검색'의 수준에 관계없이 분류 대상으로 분류됩니다. "오픈 소스"란 일종의 API를 통해 질의 할 수있는 해킹 저장소 계획을 의미합니다. – luvieere

+0

군수품, 불법 정보 ... 여기 정확히 무엇을하려고합니까? –

관련 문제