2016-06-20 1 views
-2

문제점 처리 중 : 데이터 가상화 & 예측 인프라를 만들고 싶습니다.빅 데이터 아키텍처 : Hive 또는 Hadoop이 적용된 Elasticsearch-Kibana

나는 Hdfs (ES-Hadoop 포함), & Spark (Python)을 모델링을 위해 Hdfs에 대해 생각했다.

제 질문은 : ES로 Hdfs의 데이터를 올바르게 색인화 할 수 있습니까? 아니면 Elasticsearch & Hdfs 사이에 하이브 또는 스파크를 사용해야합니까?

어떤 아키텍처가 가장 좋은 방법인지 모르겠습니다.

답변

0

ES-Hadoop은 Elasticsearch를 사용하여 직접 HDFS의 데이터를 색인 할 수 있습니다. 예를 들어, 조회를 수행하거나 일부 기준에 따라 데이터를 필터링하는 것과 같이 HDFS에서 ES로가는 도중에 데이터를 조작해야하는 경우 StreamSets Data Collector과 같은 도구를 사용할 수 있습니다. 자세한 내용은 the blog post을 참조하십시오.

전체 공개 - 저는 StreamSets의 커뮤니티 챔피언입니다.

+0

내 질문에 명시 적으로 ... 나는 HDFS에서 직접 데이터를 인덱싱하는 것이 좋습니까? 아니면 하이브로 데이터를 인덱싱하는 것이 좋습니까? –

0

하이브와 하이픈에서 색인 생성의 성능 차이에 관한 질문 인 경우 .... 아무런 차이가 없습니다. 하이브 데이터의 경우에도 HDFS에 저장되며 하이브의 철저한 외부 테이블에 액세스 할 수 있습니다. 인덱스를 사용하는 방식에 따라 선택 사항이 결정됩니다. 하이브는 데이터 구조를 제공하고 데이터를 조작하는 많은 inbuilt 함수를 적용 할 수 있습니다 ...

+0

하이브는 HDFS에 저장된 데이터를 복제합니까, 아니면 HDFS에 구조를 제공합니까? 파일 시스템과 하이브 모두에있는 데이터입니까? –

+0

외부 테이블 인 경우 ... hdfs에있는 데이터가 hive웨어 하우스에 중복되지 않은 경우 ... –