강의 요강에 MITOPENCOURSEWARE 사이트를 긁어 내 거미가 작동하지 않습니다. 누군가 내가 그 문제가 무엇인지 알아낼 수있게 도와 줄 수 있습니까? . *는 모든 강좌에 참여해야합니다. 이게 옳은 거니?강의 요강에 MITOPENCOURSEWARE 사이트를 긁어 모으기 위해 스콥 사용
1 from scrapy.contrib.spiders import CrawlSpider, Rule
2 from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
3 from scrapy.selector import HtmlXPathSelector
4 from opensyllabi.items import OpensyllabiItem
5
6 class MITSpider(CrawlSpider):
7 name = 'mit'
8 allowed_domains = ['ocw.mit.edu']
9 start_urls = ['http://ocw.mit.edu/courses']
10 rules = [Rule(SgmlLinkExtractor(allow=['/.*/.*/syllabus']), 'parse_syllabus')]
11
12 def parse_syllabus(self, response):
13 x = HtmlXPathSelector(response)
14
15 syllabus = OpensyllabiItem()
16 syllabus['url'] = response.url
17 syllabus['body'] = x.select("//div[@id='course_inner_section']").extract()
18 return syllabus
어떻게 작동하지 않는지, 즉 어떤 현상이 발생했는지 어떻게 알 수 있습니까? 그리고 '. *'을주의해서 사용하십시오. '/ [^ /] +/[^ /] +/강의 계획서'를 사용해보십시오. –
0 페이지를 크롤링합니다. 내가 네 길로해도. – user2130389
시작 URL에'실러버스 '와 연결된 링크가 있습니까? 링크 표시. –