치료 SgmlLinkExtractor 임의의 URL 추가

어떻게 SgmlLinkExtractor에 URL을 추가합니까? 즉, 콜백을 실행하기 위해 임의의 URL을 어떻게 추가합니까? 치료 SgmlLinkExtractor 임의의 URL 추가

예로 들어 dirbot을 이용하여 정교 : https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py

parse_category 만 SgmlLinkExtractor SgmlLinkExtractor이 (일치하는 모든 액세스 허용 = 'directory.google.com/[AZ] [A-ZA-Z_ /]

2011-11-20 Lionel

대신 CrawlSpider의 사용 BaseSpider, 다음 start_requests 또는 start_urls []

class MySpider(BaseSpider): 
    name = "myspider" 

    def start_requests(self): 
     return [Request("https://www.example.com", 
      callback=self.parse)] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     ...

출처

2011-11-21 05:06:03 Lionel

클래스 ThemenHubSpider에 추가 설정 + $ ') (CrawlSpider) :

name = 'themenHub' 
allowed_domains = ['themen.t-online.de'] 
start_urls = ["http://themen.t-online.de/themen-a-z/a"] 
rules = [Rule(SgmlLinkExtractor(allow=['id_\d+']), 'parse_news')]

출처

2013-01-15 16:42:10 Anno2001

치료 SgmlLinkExtractor 임의의 URL 추가

답변

관련 문제