2012-09-30 3 views
1

저는 hbase에 조금 익숙하고 hbase을 설정하고 여러 hadoop 시스템에 저장된 데이터를 쿼리 할 수있었습니다. 그러나 hbase에서 데이터 분석을 배포 할 수 있는지 궁금합니다. 게다가.hbase 데이터의 분산 분석

필자가 분석해야하는 수십억 개의 레코드가 있는데, X 서버가 데이터베이스를 쿼리하고 쿼리의 고유 한 부분을 가져 와서 단일 서버 대신 작동하도록하고 싶습니다. 전체 데이터 세트를 통과합니다. 이것이 가능하며 어떻게 할 수 있습니까?

모든 쿼리를 조정해야한다는 것을 알기 때문에이 방법에 접근하는 방법을 잘 모릅니다. 각 서버는 hbase를 개별적으로 쿼리 할 수 ​​없으며 hbase는 서버간에 요청을 분할하는 방법을 모릅니다. 나는 혼란 스럽지만 어쩌면 거기에 숨겨진 방법으로 이것을 할 수있는 네이티브 방법이 있다고 생각합니까?

내 응용 프로그램이 Java를 실행 중이고 cloudera 배포판을 사용하여 EC2에서 클러스터를 실행하고 있습니다.

답변

1

HBase가 Hadoop을 기반으로 빌드 됨 : Hadoop의 map-reduce 프레임 워크를 사용하여 분석을 분산하고 hadoop/hbase가로드를 분산하도록 할 수 있습니다. 무엇을 할 수 있는지 보려면 docs으로 시작하십시오.

다른 옵션은 보조 프로세서를 작성하는 것입니다. 코 프로세서는 지역 서버에서 실행되므로 데이터 주변에서 작동합니다. 멋진 인트로를 찾을 수 있습니다. here

관련 문제