저는 벡터 공간 모델을 사용하여 기본 검색 엔진을 만들고 있는데이 URL은 500 개의 URL을 반환하는 크롤러이며 콘텐츠에서 SGML 태그를 제거합니다. 그러나 매우 느립니다 (URL을 검색하는 데만 30 분 이상 소요됩니다). 코드를 어떻게 최적화 할 수 있습니까? URL을 시작하는 예제로 wikipedia.org를 삽입했습니다.웹 크롤러 최적화
use warnings;
use LWP::Simple;
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
use HTML::LinkExtor;
my $starting_url = 'http://en.wikipedia.org/wiki/Main_Page';
my @urls = $starting_url;
my %alreadyvisited;
my $browser = LWP::UserAgent->new();
$browser->timeout(5);
my $url_count = 0;
while (@urls)
{
my $url = shift @urls;
next if $alreadyvisited{$url}; ## check if already visited
my $request = HTTP::Request->new(GET => $url);
my $response = $browser->request($request);
if ($response->is_error())
{
print $response->status_line, "\n"; ## check for bad URL
}
my $contents = $response->content(); ## get contents from URL
push @c, $contents;
my @text = &RemoveSGMLtags(\@c);
#print "@text\n";
$alreadyvisited{$url} = 1; ## store URL in hash for future reference
$url_count++;
print "$url\n";
if ($url_count == 500) ## exit if number of crawled pages exceed limit
{
exit 0;
}
my ($page_parser) = HTML::LinkExtor->new(undef, $url);
$page_parser->parse($contents)->eof; ## parse page contents
my @links = $page_parser->links;
foreach my $link (@links)
{
$test = $$link[2];
$test =~ s!^https?://(?:www\.)?!!i;
$test =~ s!/.*!!;
$test =~ s/[\?\#\:].*//;
if ($test eq "en.wikipedia.org") ## check if URL belongs to unt domain
{
next if ($$link[2] =~ m/^mailto/);
next if ($$link[2] =~ m/s?html?|xml|asp|pl|css|jpg|gif|pdf|png|jpeg/);
push @urls, $$link[2];
}
}
sleep 1;
}
sub RemoveSGMLtags
{
my ($input) = @_;
my @INPUTFILEcontent = @$input;
my $j;my @raw_text;
for ($j=0; $j<$#INPUTFILEcontent; $j++)
{
my $INPUTFILEvalue = $INPUTFILEcontent[$j];
use HTML::Parse;
use HTML::FormatText;
my $plain_text = HTML::FormatText->new->format(parse_html($INPUTFILEvalue));
push @raw_text, ($plain_text);
}
return @raw_text;
}
잘 모르겠습니다. 필자는 perl에 익숙하지 않고 효율적인 코드를 작성하는 법을 배우고 있습니다. – user2154731
'en.wikipedia.org'의 * 전체 *를 다운로드하려고합니다. Wikipedia가 전혀 마음에 들지 않을 가능성을 제외하고는 30 분 이내에 달성 할 수 있다면 그것은 성취라고 할 수 있습니다. 이와 같은 일을하는 것에 대해 두 번 생각하고, 귀하가하는 사이트의 서비스 약관을 신중히 검토하십시오. 대부분의 사람들은 자신의 데이터를 이와 같이 남용하지 않기를 원할 것입니다. – Borodin
사실, 저는 대학 웹 사이트를 크롤링해야합니다. 미안, 그걸 잊어 버렸어. 이 URL을 예로 든 것입니다. – user2154731