2011-11-12 4 views
0

나는 Scrapy, Python 웹 스크래핑 프레임 워크를 사용하여 사이트에서 pdf 파일을 긁어 모으고 있습니다.Scrapy로 PDF 파일 다운로드

사이트는 pdf를 다운로드 할 수 있도록 동일한 세션을 따라야합니다.

모두 자동화 되었기 때문에 Scrapy와 잘 작동하지만 몇 초 후에 스크립트를 실행하면 내 세션없이 직접 PDF에 액세스하려고 할 때 가짜 PDF 파일을 제공하기 시작합니다.

왜 이런가 &이 문제를 극복하는 방법을 생각해보십시오!?

+3

더 느리게 요청 하시겠습니까? 나는 그들이 당신을 속도 제한하고 있다고 생각합니다. – kindall

+0

당신은 맞습니다. 그러나 pdf 파일을 엄청나게 다운로드해야하기 때문에 다운로드 속도가 더 빨라지고 시간이 많이 걸립니다. – Kex

답변

0

사이트에서 세션을 추적한다고 생각합니다. PHP 사이트 인 경우 PDF 파일을 다운로드하는 요청에 PHPSESSID 쿠키를 전달하십시오.