최소한의 웹 크롤러를 작성하려고합니다. 목표는 시드에서 새 URL을 검색하고 이러한 새 URL을 더 크롤링하는 것입니다. 다음과 같이 코드는 : 나는 더 이상 진행 수있는 방법재귀 웹 크롤러 perl
use strict;
use warnings;
use Carp;
use Data::Dumper;
use WWW::Mechanize;
my $url = "http://foobar.com"; # example
my %links;
my $mech = WWW::Mechanize->new(autocheck => 1);
$mech->get($url);
my @cr_fronteir = $mech->find_all_links();
foreach my $links (@cr_fronteir) {
if ($links->[0] =~ m/^http/xms) {
$links{$links->[0]} = $links->[1];
}
}
내가 여기에 붙어있다가, % 링크의 링크를 크롤링 또한, 어떻게 내가 오버 플로우를 방지하기 위해 깊이를 추가 할 수 있습니다. 제안을 환영합니다.
/m,/s 및/x 플래그 : 다양한 Perl 스타일 가이드가 각 정규식에 이들을 배치하는 것이 좋습니다./x는/x가 너무 유용하기 때문에// ms는 일부 초보자 친화적이지 않은 정규 표현식 동작을 변경합니다 .-- 나는 또한 항상 정규 표현식에이 정규 표현식에 3 개의 플래그를 추가해야합니다. –