2017-09-14 2 views
0

전체 사이트를 크롤링하기 위해 치료를 사용하고 있지만 파서는 절대로 호출되지 않습니다. 나는 이것을 영원히보고 있었지만, 약간의 변화를 주었지만 효과가 없었다. 어쩌면 그 위에 신선한 눈 쌍이 필요할지도 모릅니다. 여기 내 코드 :왜 내 파서가 호출되지 않습니까?

import scrapy 
from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

class FirstSpider(CrawlSpider): 
    name = 'firstSpider' 
    allowed_domains = ['http://example.com'] 
    start_urls = ['http://example.com'] 

    rules = (Rule(LinkExtractor(), callback='parse_page', follow=True),) 

    def parse_page(self, response): 
     print('made it to the parser...') 

로그에 오류가 표시되지 않습니다. 요청은 example.com에서 200 응답을받습니다. 필터링 된 오프 사이트 요청은 'www.iana.org'입니다.

저는 우분투 16.04에서 python3을 사용하고 있습니다.

미리 감사드립니다.

+0

문자열로 기능을 가지고 가정 당신의'callback' 인수가 있어야한다

allowed_domains = ['http://example.com'] 

이하? – ryugie

+0

이것은 Scrapy 문서의 문자열이므로 믿을 수 있습니다. 나는 단지'NameError : name 'parse_page'가 정의되지 않았다는 것을 보았고 따옴표를 제거했다 .' –

답변

2

문제는 그것은 도메인 이름이 아닌 URL

allowed_domains = ['example.com'] 
관련 문제