2012-07-28 2 views
1

HBase를 사용할 필요가 없도록 실시간으로 내 데이터를로드 할 필요가 없지만 MR 채용에서 HBASE를 사용하면 성능상의 이점이 있는지 궁금합니다. 조인은 인덱싱 된 데이터로 인해 더 빠릅니까?HBase 이상의 하이브 대 HDFS의 하이브

아무나 어떤 벤치 마크가 있습니까?

답변

2

일반적으로 하이브/hdfs는 HBase보다 훨씬 빠릅니다. HBase는 HDFS 위에 위치하여 다른 레이어를 추가합니다. HBase는 개별 레코드를 찾고 있지만 MR 작업을 사용하지 않을 경우 더 빠릅니다.

0

존경스럽게도 : 귀하의 데이터가 실제가 아니며 mapreduce 작업을 고려하고 있다면 Hadoop MapReduce 프로그램에서 처리하여 HDFS에 저장할 수 있기 때문에 hdfs를 통해 하이브로 이동하십시오. 한편 Hive는 HDFS 위치의 데이터, 기본 SQL, 조인 및 일괄 데이터로드를 Hive 데이터베이스에 빠르게 읽도록 지원합니다. 하이브로
는 또한 우리의 레이어를 줄이기 위해 HDFS에 더 호환되는 대용량 데이터의
파티션을-감소지도와 도움을 최적화 내장 인터페이스
같은
대량 처리/실시간 (가능한 경우)
을뿐만 아니라 SQL을 제공

은 HBase를에 HBase를, 하이브, 그리고 하이브의 결과를 바탕으로

: 당신이 여기 HBase를 추가하면 HBase를, 그렇지 않으면 그것은 당신이 HBase를 대 하이브의

2

성능 :)에 대한 중복 기능을 것이다는 것을 표시 두 접근법 간의 성능은 비슷합니다.

Hive on HBase Performance

enter image description here