2010-06-20 2 views
1

Heritrix를 처음 사용하고 heritirx 1.14를 사용합니다. 다음 방법을 모르겠습니다. 1) 다운로드 된 링크의 BFS 깊이를 특정 숫자 (예 : 3)로 제한합니다. 2) 다운로드 한 유형을 html 및 텍스트로 제한하십시오.경계 Heritrix 깊이

은 내가보기 엔 당신의 관심을 주셔서 감사합니다. 모든

답변

0

첫째, 나는 Heritrix 1 Heritrix 2에서 혼란 개념을 (좀 더 사용하는) (나는 꽤 오랫동안 사용하지 않은한다) 할 수있다. 미안해.

깊이 국경에 설정 범위이다. BroadScope는 깊이 제한 설정을 갖습니다. 또는 DecidingScope로 범위를 가질 수 있습니다.

다운로드 할 파일 형식은 크롤링 된 파일을 보관하는 데 사용하려고하는 MirrorWriterProcessor에서 설정해야한다고 생각합니다 (2.x의 DecideRules 시퀀스 임). 그런데, wget을/httrack으로

방금 ​​문제의 웹 페이지 (들)의 최신 복사본을 가질 필요가 적어도 경우, 이러한 유형의 작업에 대해 구성하는 것이 더 쉽습니다.

+0

덕분에 많이 Radtoo는하지만 설정 탭에서 깊이에 대한 옵션을 찾을 수 없습니다. –

0

1)는 max-link-hops 3. 참조 6.3.2 설정 3.

에 예를 들어, 특정 수의 다운로드 링크의 BFS 깊이를 바인딩. 범위 설정manual입니다.

2) 다운로드 한 종류의 HTML과 텍스트로 제한합니다.

text/plaintext/html과 일치하도록 ContentTypeRegExpFilter에서이 값을 구성하십시오. 섹션 6.2.2.2를 참조하십시오. 제공 필터manual.