Scrapy의 JOBDIR 설정을 사용하여 중복하기 항목 재개는 여기에 설명 크롤 제공 : 여전히 실행중인 동안Scrapy - JOBDIR
scrapy crawl myspider -o out.csv -t csv -s JOBDIR=./jobs/run-1
:
http://doc.scrapy.org/en/latest/topics/jobs.html
내가 이렇게 내 크롤링 명령을 실행하려고 CTRL-C를 눌러 정상적으로 종료합니다. 그런 다음 같은 명령을 다시 실행하여 다시 시작하십시오.
[myspider] INFO: Resuming crawl (74 requests scheduled)
을하지만 내 출력 CSV 파일을 볼 때, 나는 중복 항목은 다음과 같이 있습니다 참조 : 나는 터미널 출력에서 크롤링을 다시 시작하는 것을 확인할 수 있습니다
name,email
Alice,[email protected]
Bob,[email protected]
...
name,email <- duplicated header!
Bob,[email protected] <- duplicated row!
...
이 정상인가요? 같은 명령에 -o
옵션과 JOBDIR
옵션을 사용해도 괜찮은지 궁금합니다. 그렇지 않은 경우 크롤링 된 항목을 내보내려면 어떻게해야합니까?
현재, 나는 Scrapy 0.22.1을 사용하고 있습니다.
감사합니다.