2013-09-27 11 views
0

Clojure에서 응용 프로그램을 만들고있어 특정 크롤러를 사용하여 특정 사이트를 크롤링하고 있습니다.방문한 URL 추적 - 해당 크롤러

지금 당분간 itsy 크롤러를 실행하고 전체 응용 프로그램을 중지 할 수 있습니까? 그렇지만 응용 프로그램을 다시 시작하면 이미 방문한 URL을 건너 뛸 수 있습니까?

답변

1

소스를 보면, itsy에는 크롤러의 현재 상태를 저장하는 기본 제공 메커니즘이 없습니다. 그러나 크롤러의 현재 상태는 crawl 함수의 결과로 :state 키 아래에서 액세스 할 수 있습니다.

응용 프로그램을 종료 할 때 :seen-urls 원자 및 :queued-urls 대기열의 값을 직렬화 한 다음 다시 시작할 때 직렬화 할 수 있습니다. crawl 함수를 실행 한 후 저장된 값을 추가하여 모든 것이 올바르게 초기화되었는지 확인해야합니다.