나는 페이지 매김을 시도하는 메뚜기 거미를 가지고 있지만 크롤링 프로세스를 시작할 때마다 페이지 1 인 시작 페이지를 건너 뛰고 즉시 2 페이지로 이동하는 것처럼 보입니다 당신이 start_urls
를 사용할 때 응답이 parse
에있어서, 상기 제 1 시간에 간다 때문에시작 페이지를 무시하고 다음 페이지로 계속되는 치료
class IT(CrawlSpider):
name = 'IT'
allowed_domains = ["jobscentral.com.sg"]
start_urls = [
'https://jobscentral.com.sg/jobs-accounting',
]
rules = (Rule(LinkExtractor(allow_domains=("jobscentral.com.sg",),
restrict_xpaths=('//li[@class="page-item"]/a[@aria-label="Next"]',)),
callback='parse_item', follow=True),
)
def parse_item(self, response):
self.logger.info("Response %d for %r" % (response.status, response.url))
#self.logger.info("base url %s", get_base_url(response))
items = []
self.logger.info("Visited Outer Link %s", response.url)
for loop in response.xpath('//div[@class="col-md-11"]'):
item = JobsItems()
t = loop.xpath('./div[@class="col-xs-12 col-md-3 px-0"]/div[@class="posted-date text-muted hidden-sm-down"]//text()').extract()[1].strip()
....
more codes here
정답 인 – dythe