2014-05-11 1 views
0

crawler4j을 사용하여 크롤러를 구현하려고합니다. 다음까지까지 정상적으로 실행 중입니다.여러 컴퓨터에서 crawler4j 실행 | 다른 인스턴스 | 루트 폴더 잠금

  1. 나는 그 중 하나만 실행합니다.
  2. 다시 시작하지 않고 계속 실행합니다.

크롤러를 다시 시작하면 수집 된 URL이 고유하지 않습니다. 이는 크롤러가 루트 폴더 (중간 크롤러 데이터 &을 인수로 전달 함)를 잠그기 때문입니다. 크롤러가 다시 시작되면 루트 데이터 폴더의 내용이 삭제됩니다.

가능한가요?

  1. 루트 데이터 폴더의 잠금을 방지합니다. (따라서 한 번에 여러 개의 크롤러를 실행할 수 있습니다.)
  2. 다시 시작한 후 루트 데이터 폴더의 내용이 삭제되지 않습니다. (즉, 그래서 정지 후 크롤러를 다시 시작할 수 있습니다.)

답변

0

당신은 사용 크롤러의 구성을 변경하기 위해 시도 할 수 있습니다 :

crawlConfig.setResumableCrawling(true); 

클래스 controller.java에 있습니다.

this link을 따르고 재개 가능한 크롤링을 참조하십시오.

관련 문제