2010-11-24 4 views
5

방금 ​​스팸 설정 및 실행 중이며 훌륭하게 작동하지만 두 가지 (멍청한 질문) 질문이 있습니다. 먼저 나는 치료와 스파이더 링 사이트에 완전히 새로운 것이라고 말해야합니다.스킨 장고 제한 링크 ​​크롤링

  1. 크롤링되는 링크 수를 제한 할 수 있습니까? 페이지 매김을 사용하지 않는 사이트가 있고 홈페이지에서 많은 링크 (크롤링)를 나열합니다. 처음 10 개 정도 크롤링 할 필요가있을 때 링크를 모두 크롤링하는 느낌이 듭니다.

  2. 한 번에 여러 개의 거미를 어떻게 운영합니까? 지금은 scrapy crawl example.com 명령을 사용하고 있지만 example2.com 및 example3.com의 스파이더도 있습니다. 하나의 명령을 사용하여 모든 스파이더를 실행하고 싶습니다. 이것이 가능한가?

+0

사이트를 한 번만 스크랩하면 사이트에서 이탈 할 수 있으며 불량하거나 실례가됩니다. 치료는 동시 적이므로 다중 연결을 통해 동시에 치료할 수 있습니다. 구성 설정에서 제한 시간 설정을 확인하십시오. –

+0

두 번째 질문에 대해 알고 싶습니까? 아마도 내가 빠진 것이 분명 할 것 같습니다. – imns

+0

한 번에 여러 개의 거미를 사용하려면 : 'scrapy crawl example.com example2.com example3.com' –

답변

2

for # 1 : rules 속성을 사용하여 링크를 추출하고 따르지 않고 구문 분석 함수에서 규칙을 작성하고 Requests 객체를 반환합니다. # 2

은 :

0

신용 당신이 이런 종류의 제한을 지정할 수 있도록해야 CloseSpider을 사용하여 여기 https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU

, 쉐인로 이동 scrapyd보십시오. 나는 그것을 필요로하지 않았기 때문에

http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

아직 시도하지 않았습니다. 설정 파일에서 확장 기능 (동일한 페이지 상단 참조)을 활성화해야하는 것처럼 보입니다.