저는 지난 한 달 동안 웹 크롤링 프로젝트에 Scrapy를 사용해 왔습니다.속도를위한 최고의 웹 그래프 크롤러?
이 프로젝트는 홈 페이지에서 연결할 수있는 단일 도메인 이름으로 모든 웹 페이지의 전체 문서 내용을 가져와야합니다. Scrapy를 사용하여 이것을 작성하는 것은 매우 쉬웠지만 너무 느리게 진행됩니다. 2 ~ 3 일 만에 10 만 페이지를 끌어 올 수 있습니다.
나는 Scrapy가이 유형의 크롤링을 의미하지 않는다는 나의 초기 개념이 스스로를 드러내는 것을 깨달았다.
성능 향상을 위해 Nutch와 Methabot에 내 시야를 집중시키기 시작했습니다. 크롤링하는 동안 저장해야하는 유일한 데이터는 웹 페이지의 전체 내용이며 페이지의 모든 링크 (가급적이면 사후 처리에서 수행 할 수 있음)입니다.
저는 많은 패러랠 요청을 빠르게 처리하는 크롤러를 찾고 있습니다.
ISP 일 수도 있습니다. –