2009-06-29 7 views
12

다른 사이트를 크롤링하기 위해 scrapy를 사용하고 있습니다 (다른 정보가 추출 됨).Python Scrapy, 항목에 파이프 라인을 정의하는 방법은 무엇입니까?

글쎄, 예를 들어 일반 파이프 라인 (대부분의 정보가 동일합니다)이지만 크롤링 중입니다. 일부 Google 검색 응답과 파이프 라인은 달라야합니다.

예를 들어 : 내가하는 파이프 라인 구글 거미를 지정할 수있는 방법 ....

GenericItemGenericPipeline

를 사용하지만 GoogleItemGoogleItemPipeline을 사용하지만이 GoogleItemPipeline 대신 GenericPipeline를 사용하려고 크롤링 거미가 될 때 사용해야합니까? 이제

답변

14

한 방향으로 만 -

pipelines.py "있는 그대로"파이프 라인이를 처리 또는 반환에 항목 유형을 확인하십시오

from grabbers.items import FeedItem 

class StoreFeedPost(object): 

    def process_item(self, domain, item): 
     if isinstance(item, FeedItem): 
      #process it... 

     return item 

items.py :

from scrapy.item import ScrapedItem 

class FeedItem(ScrapedItem): 
    pass 
관련 문제