다른 사이트를 크롤링하기 위해 scrapy를 사용하고 있습니다 (다른 정보가 추출 됨). 글쎄, 예를 들어 일반 파이프 라인 (대부분의 정보가 동일합니다)이지만 크롤링 중입니다. 일부 Google 검색 응답과 파이프 라인은 달라야합니다. 예를 들어 : 내가하는 파이프 라인 구글 거미를 지정할 수있는 방법 .... GenericItem는 GenericPipe
이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select(
... '//td[@class="altRow"][1]/a/@href').re('/.a\w+')
[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi
이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
dom