Scrapy 여전히 옵션 링크의 목록을 해결 한 그래서 경우에도
.
속도/성능/효율성
Scrapy는 트위스트, 파이썬에 대한 인기 이벤트 중심의 네트워킹 프레임 워크를 작성
. 따라서 동시성을 위해 non-blocking (일명 비동기식) 코드를 사용하여 구현됩니다.
데이터베이스 파이프 라인
당신은 당신이 당신의 데이터가 데이터베이스에 파이프 라인 될 것인지 언급 - 당신은 Scrapy이 Item Pipelines
기능이다시피 : 아이템이로 스크랩 한 후
을 스파이더는 항목으로 보내지며 파이프 라인은 순차적으로 실행되는 여러 구성 요소를 통해 처리합니다.
따라서 각 페이지를 다운로드 한 후 즉시 데이터베이스에 쓸 수 있습니다.
코드 조직
Scrapy이 당신이 등을 설정, 거미, 항목, 파이프 라인은 논리적으로 분리가 당신에게 좋은 명확한 프로젝트 구조를 제공합니다. 심지어 이렇게하면 코드를 명확하고 쉽게 지원하고 이해할 수 있습니다. 코드
Scrapy가 무대 뒤에서 당신을 위해 많은 일을 수행하는
는
시간. 이렇게하면 실제 코드와 논리 자체에 초점을 맞추고 "금속"부분에 대해 생각하지 않게됩니다. 프로세스, 스레드 등을 만듭니다.
그러나 동시에, Scrapy가 오버 헤드 일 수 있습니다. Scrapy는 웹 페이지에서 데이터를 크롤링하고 긁어 모으기 위해 설계되었습니다. 당신이 그들을 보지 않고 다수의 페이지를 다운로드하기를 원한다면, 그렇습니다. grequests
은 좋은 대안입니다.
그 중 하나는 당신이 그들을 만나러 간 후에 당신이없이 살 것이라고 상상할 수 없습니다. 나를 Grequests에게 소개시켜 줘서 고마워. –