2011-09-28 9 views
1

I frequent many libraries. 브루클린 공공 도서관, 퀸즈 공공 도서관, 뉴욕 공공 도서관 및 CUNY 학교 도서관. 나는 책을 원할 때 4 가지 온라인 카탈로그를 모두 검색해야합니다. 나는 책, 저자, ISBN 또는 어떤 키워드를 문자열로 취한 다음, 각 카탈로그 사이트를 수동으로 방문한 것처럼 4 개의 검색 결과를 반환하는 프로그램을 작성하려고합니다. 나는 이것이 웹 크롤러로 간주 될 것이라고 생각한다. 나는 프로그래밍 튜토리얼을 따르는 데 상당히 능숙하며, 내가 무엇을 찾고 있는지 알 때 뭔가를 검색한다. 어디서부터 시작해야할지 모르겠다. 고맙습니다.하나의 검색 문자열을 사용하여 4 개의 웹 사이트 카탈로그 검색

답변

1

다음은 python 기반 스크립트 및 각 온라인 카탈로그의 크롤링/스크래핑을 자동화하는 방법의 예입니다. 이것은 모든 언어에서 할 수 있지만, 제 생각에는 파이썬이 가장 간단합니다.

Scrapy

Simple Web Crawler (Python recipe)

또는, 웹 페이지 소스를 가져온 다음 BeautifulSoup 같은과 해당 소스를 구문 분석 urllib2를 사용할 것이라고 미리 작성된 스크립트없이 작업을 수행합니다. 파싱 ​​된 소스를 사용하여 키워드 검사를 수행하고 결과를 표시하십시오.

+0

OMG 정말 고마워요 !!!!! 웹 크롤러 프레임 워크가 있는지조차 알지 못했습니다. Idk는 파이썬을 사용하는 법을 가르쳐 줬지만 방금 저에게 영감을주었습니다. 그리고 urllib2와 BeautifulSoup이 무엇인지 압니다. 다시 한 번 감사드립니다! :) –

+0

문제는 @MsKhadijah입니다. 도와 줄 수있어서 기뻐! 답변의 왼쪽에있는 위/아래 화살표 아래의 체크 표시를 클릭하여 답변을 수락하십시오. 이 솔루션이 타당하다는 것을 다른 사람들에게 알릴 수 있습니다. 감사! – chown