2014-12-24 2 views
0

나는 Scrapy (Python)로 스파이더를 빌드하려고 시도했지만 스스로 해결할 수없는 문제가 발생했습니다.응답 데이터가 Scrapy에서 다운로드 될 때까지 프로그램 중지

def parse(self, response):   
     print "one" 
     yield scrapy.FormRequest.from_response(
       response, 
       url="url.php", 
       callback=self.funkcija2, 
      ) 
     print "three" 

    def funkcija2(self, response): 
     print "two" 

이 나에게 하나, 셋, 다음 두 가지를 인쇄 : 는 여기에 코드입니다. 지금까지 내가 이해하는 한, 응답은 다운로드되고 응답이 다운로드 될 때까지 기다린 후 3을 인쇄하고 그 다음에 만 2를 인쇄하는 콜백 함수를 실행합니다. 그래도 응답 데이터가 다운로드 될 때까지 프로그램을 중지하고 콜백 기능을 수행 한 다음 요청 이후에 계속 진행합니다. 그게 가능하니?

언제 콜백 함수가 올바르게 호출되는지 이해하고 있습니까? 어떤 도움을 주셔서 감사합니다!

답변

0

parse(self, response) 함수를 호출 한 결과가 생성기가 될 것이기 때문에이 경우 yield의 사용법은 정확하지 않다고 생각합니다. 다른 질문에 관해서는, scrapy는 비동기 프레임 워크이므로 응답을 다운로드 한 후에 무언가가 실행되도록하려면 콜백 함수에 넣어야합니다. 귀하의 경우 이는 print "three" 문이 print "two" 문 다음에 있어야 함을 의미합니다 (funkcija2).

+0

답변 해 주셔서 감사합니다. 'yield '를 사용하는 이유는'print "세 개의'''뒤에 실제로'FormRequest'가 또 하나 있다는 것입니다. 그리고 두 번째'FormRequest'를 콜백 함수에 넣을 수 없습니다. 왜냐하면 첫 번째 FormRequest와 동일한 응답을 기반으로해야하기 때문입니다. 그게 가능하니? – eksponente

+0

이 페이지를 읽고 필요한 것을 정확히 찾을 수 있습니다 : [Spiders Documentation] (http://doc.scrapy.org/en/0.24/topics/spiders.html) –

+0

구문 분석 기능에서 실제로 다른 FormRequest를 만들 수 있습니다. 같은 응답이지만 어떤 Response가 먼저 다운로드 될지는 제어 할 수 없습니다. –

관련 문제