1
는 현재 Sgmllinkextractor 내 규칙은 다음과 같습니다 : Scrapy SgmlLinkExtractor 정지 후 10 페이지
rules = (Rule (SgmlLinkExtractor(allow=("/boards/recentnews.aspx",),restrict_xpaths= ('//*[text()[contains(.,"Next")]]'))
, callback="parse_start_url", follow= True),
)
내가 scrapy 그것은 10 페이지에 도달 한 후 크롤링을 중지하려면, 그래서 그것을 이런 식으로 뭔가 될 것이라고 생각 :
rules = (Rule (SgmlLinkExtractor(allow=("/boards/recentnews.aspx?page=\d*",),restrict_xpaths= ('//*[text()[contains(.,"Next")]]'))
, callback="parse_start_url", follow= True),
)
하지만 어떻게해야할지 모르겠다. 규칙은 1-10에 적용됩니다.
감사 규칙에 포함 할 수있는 방법이있을 것이라고 생각했다. – rmehta1987