arachnode.net 크롤러를 사용하여 웹 사이트를 크롤링했습니다. 결과 크롤링 데이터가 +100GB 크기의 데이터베이스가되었습니다!arachnode.net 웹 페이지 테이블이 큽니다
나는 arachnode.net 데이터베이스를 둘러 보았고 "webpages"테이블이 범인임을 알았습니다. 다운로드하지 않은 웹 사이트, 이미지, 미디어 등을 크롤링 할 때 html 코드 만 다운로드합니다. 그러나이 경우에는 html 웹 페이지에 숨겨진 viewdata 및 javascript가 포함되어 있음을 알 수 있습니다.
그래서 다시 크롤링을해야하며 이번에는 웹 페이지 테이블에 저장하기 전에 숨겨진 viewdata와 javascript 코드를 제거해야합니다.
누구나 달성 방법에 대한 아이디어가 있습니다.
감사합니다.
감사합니다 : 다음과 같이
PostRequest CrawlAction 만들기 – Ovis