스팸으로 크롤링 할 때 동일한 콘텐츠 (예 :/제품)로 크롤링하는 URL

스팸으로 동일한 조건의 여러 페이지를 크롤링하려면 어떻게합니까? 예 : 제품이 포함되지 않은 전자 상거래 사이트의 모든 제품 페이지를 식별하고 싶습니다. 사진 (또는 무언가)스팸으로 크롤링 할 때 동일한 콘텐츠 (예 :/제품)로 크롤링하는 URL

class SomewebsiteProductSpider(scrapy.Spider): 
name = "test" 
allowed_domains = ["test.com"]

start_urls = [test.com/product] 많은 eamples에서

가 시작 URL이 항상 한 페이지에 해당 볼 I've.

가능합니까? 감사!

[CrawlSpider 클래스] (https://docs.scrapy.org/en/latest/topics/spiders.html#crawlspider)를 확인 했습니까? –

웹 페이지의 모든 항목을 식별하려면 한 페이지 (일반적으로 사이트의 기본 페이지)부터 시작하여 거기에서 크롤링을 시작하는 것이 좋습니다. 관심있는 모든 카테고리가 나열된 사이트의 페이지를 사용하고 싶습니다.

치료를 통해 스파이더가 따라야하는 링크와 정보를 구문 분석하고 정보를 반환해야하는 페이지를 정의 할 수 있습니다.

그래서 가능하고 치료법은 훌륭한 도구입니다.

2017-04-19 14:26:08

고마워요 @ 프랭크! 이미 모든 제품 페이지가 포함 된 페이지를 찾습니다. 이 방법을 사용하면 더 쉽게 크롤링 할 수 있습니다. 당신의 도움을 주셔서 감사합니다 –

답변