0
학습 치료를위한 자습서는 this 이었지만 매우 이상한 문제가 있습니다. URL start_urls
을 추출하여 data.json
에 넣습니다. 저는 여기에 사용되는 코드입니다 :Scrapy를 사용하는 중에 이상한 오류가 발생했습니다.
import scrapy
from scrapy.contrib.spiders import Rule
from scrapy.contrib.linkextractors import LinkExtractor
class ArticleItem(scrapy.Item):
url = scrapy.Field()
class ScholarSpider(scrapy.Spider):
name = "scholar"
allowed_domains = ["mininova.org/"]
start_urls = ['http://www.mininova.org/today']
rules = [Rule(LinkExtractor(allow=['/tor/13278067'], deny=['http://www.mininova.org/today']), 'parse')]
def parse(self, response):
article = ArticleItem()
article['url'] = response.url
return article
개발 목적은, 난 단지 URL을 추출 시도하고 /tor/13278067
로 끝나는 너무 매우 특정 URL했다.
[{"url": "http://www.mininova.org/today"}]
오케이. 제 경우에는 'CrawlSpider'가 치료 모듈에 없었습니다. '13278067'을'\ d +'로 바꿨을 때 첫 번째 결과 만 긁어 냈습니다. 왜 그런지 알아? 또한 json 파일에는 출력이 없습니다. –
죄송합니다, 실수. 내 대답을 업데이트했습니다, CrawlSpider는'scrapy.contrib.spiders.CrawlSpider'에 있습니다. – bosnjak
'\ d +'와 마찬가지로 작동 할 것입니다. 나는 그것을 반영하기 위해 나의 대답을 업데이트했다. 'scrap crawl scholar -o data.jl'로 실행하십시오. – bosnjak