여러 컴퓨터에서 crawler4j 실행 | 다른 인스턴스

crawler4j을 사용하여 크롤러를 구현하려고합니다. 다음까지까지 정상적으로 실행 중입니다.여러 컴퓨터에서 crawler4j 실행 | 다른 인스턴스 | 루트 폴더 잠금

크롤러를 다시 시작하면 수집 된 URL이 고유하지 않습니다. 이는 크롤러가 루트 폴더 (중간 크롤러 데이터 &을 인수로 전달 함)를 잠그기 때문입니다. 크롤러가 다시 시작되면 루트 데이터 폴더의 내용이 삭제됩니다.

가능한가요?

2014-05-11 cipherux

당신은 사용 크롤러의 구성을 변경하기 위해 시도 할 수 있습니다 :

crawlConfig.setResumableCrawling(true);

클래스 controller.java에 있습니다.

this link을 따르고 재개 가능한 크롤링을 참조하십시오.

2014-05-14 10:26:38 user3636204

여러 컴퓨터에서 crawler4j 실행 | 다른 인스턴스 | 루트 폴더 잠금