2012-04-07 5 views
0

나는 다음과 같은 요구 사항을 제공하는 데이터 저장소를 찾고 있어요 : - 우리는 (TBS에서) 쿼리 데이터를 많이 가지고 있기 때문에HBase의 필터 쿼리 성능

  1. 분산
  2. 집중적 인 데이터 저장소를 작성합니다. 데이터는 서비스에서 생성되며 분석을 수행하기 위해 데이터를 저장하려고합니다.
  3. 분석 쿼리를 비교적 빠르게 수행하고자합니다. (시간이 아닌 분 순서)
  4. 쿼리의 대부분은 "Select, Filter, Aggregate, Sort"유형입니다.
  5. 시스템 저장 요구 사항에 따라 스키마가 변경되는 경우가 있습니다.
  6. 우리가 저장하는 데이터의 일부는 순수한 대규모지도/축소 작업에 다른 용도로 사용할 수도 있습니다.

키 - 값 저장은 확장 성이 있지만, 우리의 쿼리 요구 사항을 지원하지 않습니다.

지도/작업을 확장하고 쿼리를 실행할 수 감소, 그러나 나는 우리의 쿼리 대기 시간 요구 사항을 충족하지 것이라 생각합니다.

(MySQL은 같은)를 RDBMS는 우리의 쿼리의 요구를 충족시킬하지만 고정 된 스키마를 가지고 우리를 강제로. 우리는 그것을 확장 할 수 있지만, 우리는 Vertica의 같은

상용 솔루션은 우리의 모든 문제를 해결할 수있는 솔루션처럼 보일 등을 공유 할 필요가 있지만, 내가 할 수있는 경우에 나는 상용 솔루션을 피할 것이다.

HBase는 기본 HDFS 때문에 Hadoop만큼 확장 가능한 시스템으로 보이며 필터 및 집계를 수행 할 수있는 기능이있는 것으로 보이지만 HBase의 필터 쿼리 성능에 대해서는 확신 할 수 없습니다.

현재 HBase는 보조 색인을 지원하지 않습니다. HBase가 임의의 열에서 Filtering에 적합한 옵션인지 궁금합니다. 설명서에 따라 행 ID 및 열 패밀리의 필터링은 열 한정자 만 필터링하는 것보다 빠릅니다. 그러나 RowId 및 Column 패밀리에서 Bloom Filter 인덱스를 사용하면 Bloom 필터의 크기가 크게 커져서이 옵션이 실제로 실행 불가능하다는 것을 알았습니다.

나는 HBase와의 필터 쿼리의 성능에 대해 온라인으로 많은 데이터를 찾을 수 없습니다입니다. 호핑 여기에 더 많은 정보가 있습니다.

감사합니다.

+0

이제 생각해 보면 SimpleDB가 모든 요구 사항을 충족시키는 것 같습니다. 확장 성이 있으며 원하는 모든 종류의 쿼리를 지원합니다. SimpleDB에서 볼 수있는 유일한 제한은 도메인 크기 제한과 쿼리 시간 제한에 대해 걱정해야만한다는 사실입니다. – user855

+0

SimpleDB를 사용 하시겠습니까? "Amazon SimpleDB는 상대적으로 소량의 데이터를 저장하도록 설계되었으며 빠른 데이터 액세스와 데이터 표현 방식의 유연성을 위해 최적화되어 있습니다." – Suman

답변

0

시도 아파치 카산드라, 그것은 아주 잘 보조 인덱스를 지원합니다. HBase를 꽃 필터에오고,이 링크를 통해 이동하시기 바랍니다, 당신이 아마 Postgres-XL 또는 related plateforms 같은 MPP 솔루션을 찾고, 패턴 Hbase bllom filters

0

을 따라 꽃의 여러 옵션에 대해 설명합니다.