2011-10-15 4 views
8

데이터 350Gb (주당 GB 증가)를 처리하는 클러스터 (hadoop, pig)가 있습니다.데이터 분석을위한 NoSql 또는 MySQL

이러한 모든 데이터는 애널리틱스에서 사용할 수 있어야합니다.

스타 스키마가있는 Msyql 솔루션이 있습니다 (데이터 부분 만로드 됨). 그러나

얼마나 스트레칭이 가능한가?

데이터 분석을 위해 Hive와 같은 NoSQL을 사용해야할까요?

나는이 기사를 읽어 http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

얼마나 큰 빅 데이터이며, 내가 MySQL의에서 멀리보고해야 할 때? Mysql의 구조적 강건성으로 인해 문제가 발생합니까?

현재 데이터는 단지 몇 GB (MySQL의 경우)이지만 확실히 증가 할 것입니다. MySQL 클러스터링은 어떻습니까?

이 경로를 따라야할까요? 이 비교 질문처럼 뭔가에 설명 된 문제의 종류 가지고 시작할 때

답변

14

350GB (기가 바이트의 성장 몇 주) ...이 모든 데이터를 필요는 분석

당신이 집에 MySQL의 전문가가 있습니까을 위해 제공되는? 그렇다면 MySQL 클러스터를 생성하고 확장하십시오. 이 솔루션의 유일한 문제점은 MySQL이 아니라는 것입니다. 아니요 아니요 NoSQL => 문자 그대로 전문가가 필요합니다.을 설정하고 경우에 따라 항상 있어야합니다. 그것을 바꿀 필요가있다. 그러나 what => SQL은 MUCH이 map/reduc'ish SQL 시뮬레이션보다 분석을 위해 더 간단하고 간단합니다. MySQL의 솔루션을 문제가 나중에이 될 수

뭔가 오라클입니다. 그러므로 무료로 사용할 수있는 MySQL의 기능과 지불해야 할 기능을 이해했는지 확인하십시오.

이 아니거나에 MySQL 전문가가 있거나 아니면 비용을 지불하고 싶지 않다면 NoSQL을 사용할 수 있습니다. NoSQL 제품 전문 지식이 필요하지는 않지만 X 노드를 단일 시스템으로 구성 및 실행하는 것은 NoSQL 솔루션에 대한 매우 간단하고 자연스러운 프로세스입니다.

예를 들어, Riak과 다른 NoSQL 짐승들과 같이, 대부분의 배포 복잡성은 제품에서 해결할 필요가 없지만 아무 것도하지 않아도됩니다.> 정말 간단합니다.

당신이 엄격하게 당신을 위해, 분석을하는 경우 SQL을 잃고 NoSQL에 지불하는 가격이 최종과 일관성, (좋은 집계 기능에 대한 생각), 그리고 일관성은 전혀 가격이되지 않을 수 있습니다.

답례로 매우 자연스러운 Big Data 처리, 내결함성 및 much more을 얻을 수 있습니다.

당신이 Hadooooxyz 공간에있는 경우 지불 할 의사가있는 경우 Hadapt을 방문하십시오. 이는 하이브 성능의 5 배를 약속합니다.

1

당신은 전환 :보다 https://dba.stackexchange.com/questions/5/what-are-the-differences-between-nosql-and-a-traditional-rdbms

기타 당신이 포즈하지 않기 때문에, 그것은 일반적인 조언 이상 질문에 대답하기 조금 어렵다 (예 : 스케일링, 읽기 속도, 100 % 일관성 요구와 관련된 문제 등).

+0

mysql에 점점 더 많은 데이터를 보내려고 노력해야 할 문제가 있습니까? – AlgoMan

+0

저장되는 데이터의 양, 사용 방법 및 DB의 기본 설계가 결과 성능에 영향을 미치고 비즈니스 요구 사항에 어떻게 영향을 미치는지는 중요하지 않습니다. 제 생각에 요점은 (a) NoSQL이 결코 MySQL을 대신 할 수는 없다는 것입니다. 그것은 또 다른 옵션 일뿐입니다. 그리고 (b) "올바른 직업을위한 올바른 도구"라고 할 수 있습니다. – jefflunt

2

물론 몇 개월 전의 질문이지만, 최근 분석가를 대상으로하는 확장 성이 뛰어난 MapReduce 기반의 Big Data 엔진에 MySQL 프론트 엔드를 설치 한 InfiniDB를 발견했습니다. 이 문제에 대한 해결책이 될 수 있습니다. 원칙적으로 관리가 거의 필요하지 않고 코드 변경이 거의 필요하지 않습니다. 하나의 상자 또는 여러 서버에서 확장이 지원됩니다 ...

1

InfiniDB는 무료가 아닙니다. 데이터베이스의 설정하게 분산됩니다 공유 아무 이상지도-줄이없는 것처럼

체크 아웃 http://code.google.com/p/shard-query

이다. STAR 스키마에 효과적입니다. N 노드를 통해 사실 테이블을 분할하고 각 서버의 차원 테이블을 복제하십시오.

당신은 더 많은 정보와 성능 테스트 결과를이 블로그 게시물을 확인할 수 있습니다

http://www.mysqlperformanceblog.com/2011/05/06/scale-out-mysql/

을 참고 : 나는 파편 - 쿼리의 저자입니다.

관련 문제