2011-01-20 4 views
3

우리는 현재 매우 큰 데이터 세트 (수십억)에 데이터를 효과적으로 저장하고 검색하는 방법에 대한 문제에 직면 해 있습니다. 우리는 mysql을 사용하여 시스템, OS, 습격, 질의, 인덱스 등을 최적화했으며, 이제 계속 나아갈 것입니다.매우 큰 데이터 세트를 저장하고 쿼리하는 방법 (관계형 DB를 넘어)

데이터 문제를 해결하기 위해 어떤 기술을 추구 할 것인지 결정해야합니다. HDFS로지도/축소를 조사했지만 HBase에 대한 좋은 소식도 들었습니다. 나는 도울 수 없지만 다른 옵션들도 있다고 생각합니다. 사용 가능한 기술과 각 기술의 절충점을 비교하는 좋은 방법이 있습니까?

각자에게 공유 할 링크가 있다면 잘 부탁드립니다.

답변

4

광범위한 문제입니다. 나는 지시를 내리려고 노력할 것이고, 각각을 위해 당신은 더 많은 정보를 보거나 물을 수있다. 첫 번째는 기존 DB입니다. 데이터가 RAID와 우수한 서버를 보유 할만큼 충분히 가치가 있다면 오라클은 좋을 것입니다. TPC-H는 결정 지원 쿼리에 대한 산업 표준 벤치 마크입니다. http://www.tpc.org/tpch/results/tpch_perf_results.asp이며 최고 성능 결과에 대한 링크입니다. 알 수 있듯이 RDBMS는 테라 바이트 단위의 데이터까지 확장 할 수 있습니다.
두 번째로 HDFS + Map/Reduce + Hive 형식의 Hadoop입니다. Hive는 MapReduce 위에 데이터웨어 하우징 솔루션입니다. 데이터를 원본 형식으로 저장하고 선형으로 확장하는 것과 같은 몇 가지 추가 이점을 얻을 수 있습니다. 매우 복잡한 쿼리를 인덱싱하고 실행하는 방법 중 하나입니다.
세 번째는 MPP - 거대한 parralel 처리 데이터베이스입니다. 수십에서 수백 개의 노드까지 확장 가능하며 풍부한 SQL 지원을 제공합니다. 예 : Netezza, Greenplum, Asterdata, Vertica. 이들 중 선택은 간단한 작업이 아니지만보다 정확한 요구 사항이 있으면 수행 할 수도 있습니다.

관련 문제