저는 파이썬과 스콥의 완전한 초보자이므로 튜토리얼을 복제하려고 시도했습니다. 튜토리얼에 따라 www.dmoz.org 웹 사이트를 긁어 내려고 노력 중입니다.Scrap Newbie Question - 자습서 파일 작업을 할 수 없습니다.
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['desc'] = site.select('text()').extract()
items.append(item)
return items
아래에 표시하고 내가이 웹 사이트를 통해 얻을 수 있겠 것은 다른 무언가로
은 내가 dmoz_spider.py를 구성한다.
내가 무슨 망치고있어?
내가 뭘 얻을 것은이 2010-12-16 18 : 42 : Scrapy 0.10.3 시작 (봇 : DMOZ) scrapy] 정보 29-0500 2010-12-16 18 : 42 : 29-0500 디버깅 : 사용 가능 확장명 : TelnetConsole, SpiderCont 추적 코드 (가장 최근에 마지막으로 호출) : 파일 "c : \ Python27 \ Scripts \ scrapy", 줄 4, _run_print_help (구문 분석기, _run_command, cmd, args, opts) 파일 "c : \ Python27"파일에서 "c : \ Python27 \ lib \ site-packages \ scrapy \ cmdline.py"파일을 실행하십시오 ( ) \ lib \ site-packages \ scr apx \ cmdline.py ", 줄 96, _run_print_help func (* a, ** kw) 파일"c : \ Python27 \ lib \ site-packages \ scrapy \ cmdline.py ", 136 줄 –
racket99