2012-10-15 2 views
0

arachnode.net 크롤러를 사용하여 웹 사이트를 크롤링했습니다. 결과 크롤링 데이터가 +100GB 크기의 데이터베이스가되었습니다!arachnode.net 웹 페이지 테이블이 큽니다

나는 arachnode.net 데이터베이스를 둘러 보았고 "webpages"테이블이 범인임을 알았습니다. 다운로드하지 않은 웹 사이트, 이미지, 미디어 등을 크롤링 할 때 html 코드 만 다운로드합니다. 그러나이 경우에는 html 웹 페이지에 숨겨진 viewdata 및 javascript가 포함되어 있음을 알 수 있습니다.

그래서 다시 크롤링을해야하며 이번에는 웹 페이지 테이블에 저장하기 전에 숨겨진 viewdata와 javascript 코드를 제거해야합니다.

누구나 달성 방법에 대한 아이디어가 있습니다.

감사합니다.

답변

1

예, 데이터가 데이터베이스에 삽입되기 전에 CrawlRequest.Data 및 CrawlRequest.DecodedHtml을 수정하는 플러그인을 작성할 수 있습니다. 답변에 대한 http://arachnode.net/Content/CreatingPlugins.aspx

+1

감사합니다 : 다음과 같이

PostRequest CrawlAction 만들기 – Ovis

관련 문제