2010-12-16 3 views
3

저는 파이썬과 스콥의 완전한 초보자이므로 튜토리얼을 복제하려고 시도했습니다. 튜토리얼에 따라 www.dmoz.org 웹 사이트를 긁어 내려고 노력 중입니다.Scrap Newbie Question - 자습서 파일 작업을 할 수 없습니다.

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

from dmoz.items import DmozItem 

class DmozSpider(BaseSpider): 
    name = "dmoz.org" 
    allowed_domains = ["dmoz.org"] 
    start_urls = [ 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
    ] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//ul/li') 
     items = [] 
     for site in sites: 
      item = DmozItem() 
      item['title'] = site.select('a/text()').extract() 
      item['link'] = site.select('a/@href').extract() 
      item['desc'] = site.select('text()').extract() 
      items.append(item) 
     return items 

아래에 표시하고 내가이 웹 사이트를 통해 얻을 수 있겠 것은 다른 무언가로

은 내가 dmoz_spider.py를 구성한다.
내가 무슨 망치고있어?

+0

내가 뭘 얻을 것은이 2010-12-16 18 : 42 : Scrapy 0.10.3 시작 (봇 : DMOZ) scrapy] 정보 29-0500 2010-12-16 18 : 42 : 29-0500 디버깅 : 사용 가능 확장명 : TelnetConsole, SpiderCont 추적 코드 (가장 최근에 마지막으로 호출) : 파일 "c : \ Python27 \ Scripts \ scrapy", 줄 4, _run_print_help (구문 분석기, _run_command, cmd, args, opts) 파일 "c : \ Python27"파일에서 "c : \ Python27 \ lib \ site-packages \ scrapy \ cmdline.py"파일을 실행하십시오 ( ) \ lib \ site-packages \ scr apx \ cmdline.py ", 줄 96, _run_print_help func (* a, ** kw) 파일"c : \ Python27 \ lib \ site-packages \ scrapy \ cmdline.py ", 136 줄 – racket99

답변

1

붙여 넣은 코드에 아무런 문제가 없습니다. 문제는 다른 곳에 있어야합니다. 출력물 전체를 붙여 넣을 수 있습니까? (당신의 코멘트는 재미있는 부분이 시작되는 곳에 멈춘다 ...)

7

나는이 문제가 있었다. 튜토리얼에서 말하는대로 아래 내용을 변경했는지 확인하십시오.

열기 items.py 당신이에 클래스

class TutorialItem(Item): 
    title=Field() 
    link=Field() 
    desc=Field() 

를 변경 한 경우 참조 :

class DmozItem(Item): 
    title=Field() 
    link=Field() 
    desc=Field() 
0

당신은 settings.py 파일이 들어있는 디렉토리를 이동하고

scrapy를 실행해야 거기에서 dmoz를 크롤링합니다.

는 명확성을 위해 https://github.com/scrapy/dirbot에 대해 프로젝트의 구조에 따라

관련 문제