2014-09-11 3 views
0

예. 내 사이트에 양식이있는 모든 페이지를 찾아서 (그리고 양식 작업 등을 나열 할 수있는) 크롤러?모두를 찾아 <forms> 사이트에서 사용

고유 한 동작으로 모든 페이지를 기록한 다음 추가 감사를 원합니다.

답변

1

Norconex HTTP Collector은 분명 도움이 될 수있는 오픈 소스 웹 크롤러입니다. 그것의 "수입자"단위에는 시작과 끝 원본 사이에서 원본을 추출하고 선택한 메타 데이터 분야에서 저장하는 "TextBetweenTagger"특징이있다. 그런 다음 해당 텍스트가 추출되지 않은 필터를 필터링 할 수 있습니다 (이에 대한 EmptyMetadataFilter 옵션 참조).

코드를 작성하지 않고도이 작업을 수행 할 수 있습니다. 결과를 저장하는 한, 제품은 "Committers"를 사용합니다. 몇 명의 커미터가 즉시 사용할 수 있지만 (파일 시스템 하나 포함) 크롤링 된 데이터를 원하는 위치 (예 : 데이터베이스)에 "커밋"하기 위해 직접 작성할 수 있습니다.

아이디어를 확인하려면 configuration page을 확인하십시오.