2009-12-23 4 views

답변

3

로봇을 만드는 것은 그다지 어렵지 않습니다. 일반적인 로봇 알고리즘을 설명하는 책이 많이 있습니다 (단순한 Google 검색은 여러 알고리즘을 나타낼 것입니다).

닷넷 perspecitve에서 그것의 JIST은 재귀 적이다 :

  • 다운로드 페이지 - 이것은 HttpWebRequest/HttpWebResponse 통해 수행, 또는 WebClient 클래스된다. 또한, 당신은 REST의 콘텐츠를 소비/생산을 위해 특별히, 위의 이상 광대 개선되는 새로운 WCF Web API from CodePlex를 것을 의미 사용할 수 있습니다, 그것은 작동합니다 (그것은 확장 성입니다 주로 인해) 스파이더 목적 멋지고

  • 구문 분석 다운로드 한 콘텐츠 -I 고도Html Agility Pack과 Html 민첩성 팩의 경우 fizzler 확장자를 권장합니다. Html Agility Pack은 조작 된 HTML을 처리하여 XPath (또는 그 서브 세트)를 사용하여 HTML 요소를 쿼리 할 수있게합니다. 또한 using them in jQuery에 익숙하다면 fizzler는 CSS selectors을 사용할 수 있습니다.

  • 일단 구조화 된 형식으로 HTML을 가져온 경우 구조와 관련있는 내용을 검색하여 처리하십시오.

    • 처리 할 수있는 큐 (앱에 대해 원하는대로 제약, 당신은 전체 웹 색인되지 않습니다에 대해, 당신인가?)에 외부 링크 및 장소에 대한 구조화 된 형식을 검색합니다.

    • 대기열의 다음 항목을 가져 와서 프로세스를 다시 반복하십시오.