1
Scrapy
을 사용하여 웹 사이트를 크롤링하고 있습니다. 크롤링해야하는 링크는 http://www.somesite.com/details.html?pageId=<some_integer_id>
입니다. some_integer_id
의 값은 1
에서 100
(정확히 100이 아님)까지 확장됩니다. 내가 할 것은 이것이다 :Scrapy + 요청 매개 변수의 변경
def __init__(self):
self.start_urls = self.generateURLs()
이 같은
Scrapy
의
start_urls
의 값을 설정
def generateURLs(self):
url_list = []
for i in range(1, 101):
url_list.append('http://www.somesite.com/details.html?pageId=%d' % i)
return url_list
이 기능을 구석 구석 :
1.I는 URL 목록을 생성하는 함수를 작성
Scrapy
을 사용하는 것이 권장되는 방법입니까, 아니면 요청 매개 변수의 값을 변경해야 할 때 더 좋은 방법이 있습니까?
감사합니다.
AFAIK, 이것이 유일한 방법입니다. Scrapy의 BaseSpider는 크롤링 할 URL을 찾기 위해'start_urls'를 필요로합니다. 이것은 당신이 정말로 이것을 좋아하지 않는다는 것을 의미합니다. 당신은 (start_requests()를 호출 할 수 있습니다 (http://doc.scrapy.org/ko/latest/topics/spiders.html#scrapy.spider.BaseSpider.start_requests) '함수를 호출하여 요청을 생성합니다. – Mayli