0
나는 치료법을 사용하여 일부 웹 사이트를 크롤링하려고합니다. 다음은 샘플 코드입니다. 메서드 파싱이 호출되지 않습니다. 원자로 서비스 (코드 제공)를 통해 코드를 실행하려고합니다. 그래서 원자로가있는 startCrawling.py에서 실행합니다. 나는 뭔가를 놓친다는 것을 안다. 좀 도와주세요.Python Scrapy- 크롤링 할 수 없습니다.
감사합니다,
Code-categorization.py
from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule
from scrapy.selector import Selector
from scrapy.selector import HtmlXPathSelector
from items.items import CategorizationItem
from scrapy.contrib.spiders.crawl import CrawlSpider
class TestingSpider(CrawlSpider):
print 'in spider'
name = 'testSpider'
allowed_domains = ['wikipedia.org']
start_urls = ['http://www.wikipedia.org']
def parse(self, response):
# Scrape data from page
print 'here'
open('test.html','wb').write(response.body)
코드 - startCrawling.py
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log, signals
from scrapy.xlib.pydispatch import dispatcher
from scrapy.utils.project import get_project_settings
from spiders.categorization import TestingSpider
# Scrapy spiders script...
def stop_reactor():
reactor.stop #@UndefinedVariable
print 'hi'
dispatcher.connect(stop_reactor, signal=signals.spider_closed)
spider = TestingSpider()
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
reactor.run()#@UndefinedVariable
감사합니다. 나는 그 대답을 즉시 받아들입니다. 나는 이것을 밖으로 시도하고 알려드립니다. – user1930402
빠른 속도로 수락했습니다. 방금 클릭하여 녹색으로 바뀌 었습니다. :) – bosnjak