Heritrix를 처음 사용하고 heritirx 1.14를 사용합니다. 다음 방법을 모르겠습니다. 1) 다운로드 된 링크의 BFS 깊이를 특정 숫자 (예 : 3)로 제한합니다. 2) 다운로드 한 유형을 html 및 텍스트로 제한하십시오.경계 Heritrix 깊이
은 내가보기 엔 당신의 관심을 주셔서 감사합니다. 모든
Heritrix를 처음 사용하고 heritirx 1.14를 사용합니다. 다음 방법을 모르겠습니다. 1) 다운로드 된 링크의 BFS 깊이를 특정 숫자 (예 : 3)로 제한합니다. 2) 다운로드 한 유형을 html 및 텍스트로 제한하십시오.경계 Heritrix 깊이
은 내가보기 엔 당신의 관심을 주셔서 감사합니다. 모든
첫째, 나는 Heritrix 1 Heritrix 2에서 혼란 개념을 (좀 더 사용하는) (나는 꽤 오랫동안 사용하지 않은한다) 할 수있다. 미안해.
깊이 국경에 설정 범위이다. BroadScope는 깊이 제한 설정을 갖습니다. 또는 DecidingScope로 범위를 가질 수 있습니다.
다운로드 할 파일 형식은 크롤링 된 파일을 보관하는 데 사용하려고하는 MirrorWriterProcessor에서 설정해야한다고 생각합니다 (2.x의 DecideRules 시퀀스 임). 그런데, wget을/httrack으로
방금 문제의 웹 페이지 (들)의 최신 복사본을 가질 필요가 적어도 경우, 이러한 유형의 작업에 대해 구성하는 것이 더 쉽습니다.
덕분에 많이 Radtoo는하지만 설정 탭에서 깊이에 대한 옵션을 찾을 수 없습니다. –