작은 웹 크롤러를 구축하고 있는데 실제 구현 (크롤링, 검색, 순위 없음, 분류 없음, 크롤링, 키스)에 대한 흥미로운 정보가 있으면 궁금합니다.웹 크롤링 기술 정보
기록을 위해, 나는 이미 O'Reilly "Spidering hacks"와 No Starch Press "Webbots, spider, screen scrapers"를 가지고 있습니다. 이 책들은 우수하지만, 일을 단순하게 유지하고 스케일링, 데이터 저장, 병렬 작업 및 기타 고급 주제에 대해 자세히 설명하지 않습니다. 물론, 기존 오픈 소스 크롤러의 코드를 검토 할 수는 있지만, 다른쪽으로 갈 것입니다 (C++ 크롤러는 복잡해 보입니다 ...). 나는 재미있는/aditionnal 정보를 찾고 있습니다.
어떤 도움을 주셔서 감사합니다. 미리 감사드립니다.