2011-01-06 2 views
2

최근에 저자가 Hbase와 Hive를 통합하는 것에 관해 언급 한 블로그를 보았습니다. 이것이 가능한지, 그렇다면 성능과 확장 성 측면에서 둘 다 사용할 때의 장점은 무엇입니까? 내가 잘못하면 친절하게 정정하십시오.Hbase와 Hive를 통합 할 때의 이점은 무엇입니까

답변

2

나는 그것이 가능할 것이라고 생각하지만 조금은 셋업하기가 쉽지 않을 것이다. 아마도 CDH3 파이널에는 출간 될 때 통합이 포함될 것이다.

장점 : hbase를 통한 하이브 쿼리. 조인과 HBase 데이터에 대한 집계 및 간단한 조작을 수행하는 쉬운 방법을 생각하십시오.

하이브를 사용하고 HBase를 사용하지 않는 이유는 무엇입니까? HBase는 데이터를 온라인으로 유지할 수있는 확장 가능한 스토리지 인프라를 제공합니다. StumbleUpon은 라이브 웹 사이트에 HBase를 사용합니다. 하이브는 실시간 쿼리 엔진이 아니기 때문에 데이터 저장소를 비슷한 목적으로 사용할 수 없습니다. HBase 이상의 하이브는 두 세계의 이익을 제공합니다.

0

현재 HBase와 Hive간에 데이터를로드 할 수있는 패치가 있습니다. 당신은 여기에서 찾을 수 있습니다

http://wiki.apache.org/hadoop/Hive/HBaseIntegration

구현 오버 헤드가 매우 높은 것으로 보인다.

HBase 테이블에서 검사를 실행하고 외부 파일에 저장 한 다음 데이터 조작을 위해 Hive로 가져 오는 것이 더 쉽습니다. (이것은 또한 꽤 귀찮은 일이지만, 만약 당신이 그것을 정기적으로하고 있다면 스크립팅 될 수 있습니다.) 이것은 현재 제가 현재 작업하고있는 해결책입니다. 어떻게 진행되는지 알려 드리겠습니다.

HBase over Hive를 선택하는 이유는 실제로 상호 교환 할 수 없습니다. HBase는 Hadoop 위에 구축 된 확장 성이 뛰어난 데이터 저장소로서 데이터 분석을 거의 지원하지 않습니다. Hive는 프로덕션 환경에서 데이터를 저장하는 데 사용되지 않고 대용량 데이터에 대해 특정 쿼리를 실행하는 것을 매우 쉽게 만듭니다.

관련 문제