많은 라이브러리 웹 페이지에서 사용 가능한 책을 크롤링/구문 분석하고 색인을 생성하는 작업이 제공되었습니다. 보통 HTML Agility Pack과 C#을 사용하여 웹 사이트 콘텐츠를 구문 분석합니다. 그 중 하나는 다음과 같다 : 당신이 * (모든 책)을 검색하면C#에서 웹 페이지 크롤링
http://bibliotek.kristianstad.se/pls/bookit/pkg_www_misc.print_index?in_language_id=en_GB
하는이 페이지 당 10 책으로 페이지가 매겨진 책의 많은 목록을 반환합니다.
내가 발견 한 일반적인 웹 크롤러는이 웹 사이트에서 실패합니다. 나는 또한 페이지의 모든 링크를 거쳐 결과를 동적으로 생성하기 위해 게시/변수를 생성하는 자체 크롤러를 작성하려고했습니다. 나는 (비록 내가 생성 된 링크가 옳다는 것을 확신하지만) 얻을 수있는 404 에러로 대부분 이것을 수행 할 수 있었다.
사이트는 Javascript를 사용하여 컨텐츠를 생성하고 GET 및 POST 변수 제출의 혼합 모드를 사용합니다.
여기 어딘가에 질문이 있습니까? –