크롤링 할 때 CrawlSpider 소스 링크 가져 오기

치료의 CrawlSpider을 사용하면 규칙이 따르는 페이지의 URL을에서 가져 오는 표준 방법이 있습니까? 내가 콜백 메서드에 페이지 B을 구문 분석 할 때 나는 페이지 A에 페이지 B에서 링크가 있다면 그래서 예를 들어, 페이지 A의 URL을 알 수있는 방법은 무엇입니까? 나는 CrawlSPider 클래스를 확장하는 대신 내장 된 기능에 더 많은 관심이 있습니다. 콜백은 응답의 요청 헤더크롤링 할 때 CrawlSpider 소스 링크 가져 오기

def mycallback(self, response): 
     print "Referer:", response.request.headers.get("Referer") 
     ...

그것은 모든 거미와 함께 작동합니다에서 "리퍼러 '헤더를 사용할 수 있습니다에서

출처

2013-07-21 Preom

출처

2013-07-21 21:19:15

크롤링 할 때 CrawlSpider 소스 링크 가져 오기

답변

관련 문제