2017-12-01 1 views
1

10TB 이상의 데이터를 크롤링하고 색인을 생성해야하는 프로젝트를 진행 중입니다. 적은 시간이 소요되는 증분 크롤링을 구현해야합니다.파일 시스템과 인덱스를 통해 크롤링하는 가장 좋은 방법

내 질문 : 모든 대형 조직이 자바와 함께 사용하는 가장 적합한 도구는 어느 것입니까?

나는 Solr과 Manifold CF를 사용해 보았지만 Manifold는 인터넷에 관한 문서가 거의 없다. 오픈 소스JSOUPSolrJ API, 명확하고 깔끔한 쉽게 understable 문서화와 함께 갈 자바 최선을 사용하는 크롤링 활동에 대한

답변

1

.

Jsoup은 실제 HTML을 사용하기위한 Java 라이브러리입니다. DOM, CSS 및 jquery와 같은 메소드를 사용하여 데이터를 추출하고 조작하는 데 매우 편리한 API를 제공합니다.

SolrJ은 Java 응용 프로그램이 Solr과 쉽게 대화 할 수있게 해주는 API입니다. SolrJ는 Solr에 연결하는 많은 세부 사항을 숨기고 응용 프로그램이 간단한 고급 메소드로 Solr과 상호 작용할 수 있도록합니다.

더 많은 옵션 당신은 또한 내가 HTML 구문 분석 않을거야 자바 API

+0

Elasticsearch을 시도 할 수 있습니다. Windows 또는 Linux에있는 NTFS 기반 파일 시스템을 통해 크롤링해야합니다. 솔루션이 있지만 업계 표준을 따라야하고 크롤링해야하는 데이터가 많기 때문에 클러스터를 사용하여 점진적으로 크롤링을 수행해야합니다. 이 목적을 위해 매니 폴드 CF가 그림으로 나타나지만 충분히 효율적이지는 않습니다. –

+0

그 대답은 내가 물었던 것과 거의 비슷하지 않습니다. –

관련 문제