전체 웹 사이트를 크롤링 할 수 없으며 표면에서 스컬이 단지 크롤링합니다. 더 크롤링하고 싶습니다. 지난 5 ~ 6 시간 동안 인터넷 검색을했는데 도움이되지 않았습니다. 아래 코드 :치료 - 전체 웹 사이트를 크롤링
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
도와주세요 !!!! 링크 만족이 적용됩니다 규칙이 될 첫 번째 규칙을 의미
감사합니다, Abhiram
방금 stackoverflow에 대한 코드를 시도했는데 - 내 ip가 금지되었습니다. 그것은 확실히 작동합니다! :) – alecxe
@Alexander - 내가 더 많은 것을 디버깅하도록 고무시키는 소리 :) :) ... IP 금지 메이트에서 미안 해요! –
example.com을 실제로 크롤링하려고합니까? 당신은 그것이 진짜 웹 사이트가 아니라는 것을 알고 있습니다. –