Scrapy를 사용하여 고정 된 도메인의 사이트를 크롤링하고 스크랩합니다. 고정 정규 표현식과 일치하는 사이트로 크롤링하고 나머지는 무시합니다. 이 코드는 완벽하게 작동하지만 최소한 1000 페이지 중 10-15 페이지 만 반환합니다. 코드는 다음과 같습니다.모든 링크를 크롤링하지 않는 치료
name = "xyz"
allowed_domains = ["xyz.com"]
start_urls = ["http://www.xyz.com"]
rules = (Rule(SgmlLinkExtractor(allow=[r'\/V-\d{7}\/[\w\S]+']),callback='parse_item'),)
def parse_item(self, response):
sel = Selector(response)
title = sel.xpath("//h1[@class='no-bd']/text()").extract()
print title
누구든지 내가 뭘 잘못하고 있는지 말해 줄 수 있습니까?