10TB 이상의 데이터를 크롤링하고 색인을 생성해야하는 프로젝트를 진행 중입니다. 적은 시간이 소요되는 증분 크롤링을 구현해야합니다.파일 시스템과 인덱스를 통해 크롤링하는 가장 좋은 방법
내 질문 : 모든 대형 조직이 자바와 함께 사용하는 가장 적합한 도구는 어느 것입니까?
나는 Solr과 Manifold CF를 사용해 보았지만 Manifold는 인터넷에 관한 문서가 거의 없다. 오픈 소스JSOUP 및 SolrJ API, 명확하고 깔끔한 쉽게 understable 문서화와 함께 갈 자바 최선을 사용하는 크롤링 활동에 대한
와 Elasticsearch을 시도 할 수 있습니다. Windows 또는 Linux에있는 NTFS 기반 파일 시스템을 통해 크롤링해야합니다. 솔루션이 있지만 업계 표준을 따라야하고 크롤링해야하는 데이터가 많기 때문에 클러스터를 사용하여 점진적으로 크롤링을 수행해야합니다. 이 목적을 위해 매니 폴드 CF가 그림으로 나타나지만 충분히 효율적이지는 않습니다. –
그 대답은 내가 물었던 것과 거의 비슷하지 않습니다. –