2009-05-18 8 views
2

작은 웹 크롤러를 구축하고 있는데 실제 구현 (크롤링, 검색, 순위 없음, 분류 없음, 크롤링, 키스)에 대한 흥미로운 정보가 있으면 궁금합니다.웹 크롤링 기술 정보

기록을 위해, 나는 이미 O'Reilly "Spidering hacks"와 No Starch Press "Webbots, spider, screen scrapers"를 가지고 있습니다. 이 책들은 우수하지만, 일을 단순하게 유지하고 스케일링, 데이터 저장, 병렬 작업 및 기타 고급 주제에 대해 자세히 설명하지 않습니다. 물론, 기존 오픈 소스 크롤러의 코드를 검토 할 수는 있지만, 다른쪽으로 갈 것입니다 (C++ 크롤러는 복잡해 보입니다 ...). 나는 재미있는/aditionnal 정보를 찾고 있습니다.

어떤 도움을 주셔서 감사합니다. 미리 감사드립니다.

답변

2

웹 크롤러의 구현 세부 정보에 관심이있는 경우 기존 오픈 소스 구현을 연구 할 수 있습니다. 다음은 Open Source Crawlers in Java입니다. 대부분의 프로젝트는 비활성 상태입니다. 그러나 인터넷 보관함의 크롤러 Heritix과 아파치 Nutch은 배우기가 많은 성숙한 액티브 프로젝트입니다.