2012-09-21 4 views
0

나는 수집 한 데이터를 분석하는 궁극적 인 새로운 부 프로젝트를 계획 중입니다. 대부분 구성 요소 수가 다른 시계열 데이터입니다 (관계형 데이터베이스 열을 생각하십시오). 시계열 데이터는 적용되는 기간 및 측정 된 주파수에 따라 달라 지므로 더 적은 수의 표에 결합하기에는 너무 많은 표준화 된 정보가 없습니다. 시계열 세트 중에 너무 많은 데이터가있을 수는 없으며, 최대 5000 회 측정 (행을 생각할 수 있음)이있는 시리즈 당 최대 100,000 회 측정이 가능합니다. 나는 시계열 데이터 (생각 테이블)의 적어도 10,000 다른 세트가있을 것으로 기대합니다.대용량 테이블을위한 SQL (MySQL) 대 NoSQL (MongoDB) 대 기타 (?)

많은 복잡한 쿼리를 수행 할 필요가 없다는 것을 예상 할 수 있습니다. (심지어 제가 한 경우에도 데이터를 선택한 후 소프트웨어로 복잡한 작업을 수행 할 수 있도록 배치 스타일 분석이므로이 프로젝트에 대해서는 시간에 민감하지 않습니다. DB에서) 그래서 나는 또한 MongoDB와 같은 NoSQL 데이터베이스를 고려 중이다.

누구든지 MySQL 또는 MongoDB가 더 나은 선택인지 조언 해 줄 수 있습니까? MySQL의 경우 스토리지 엔진은 무엇입니까? 그렇지 않은 경우 더 좋은 제안이 있습니까? 또한 테이블 수가 10,000 개에서 50 만 개 이상으로 늘어 나면 응답이 바뀝니 까?

+0

흥미로울 수 있습니다. http://www.askbjoernhansen.com/2008/02/14/10000_tables_in_one_mysql_database.html –

+0

데이터 테이블의 모양을 보여줄 수 있습니까? 당신이 묘사하는 것으로부터, 그것은 단순한 "이드, 타임 스탬프, 빈도"처럼 들리지만 오해가있을 수 있습니다. –

+0

@Justin ᚅᚔᚈᚄᚒᚔ 일부는 필수적 일 수도 있지만 반드시 그런 것은 아닙니다. 재무 데이터에서 경제 데이터, 지리 데이터, 생물학적 데이터에 이르기까지 다양합니다. 내가 개발하고있는 아이디어를 바탕으로 통계 분석이 끝난 것입니다. 저는 열이 int 또는 float 일 가능성이 높으며 각 테이블마다 1에서 10까지의 열이있을 것이라고 말할 수 있습니다. 나는 이것이 핵심 가치 상황만큼 기본 적이 지 않을 것이라고 확신한다. 관심을 가져 주셔서 감사합니다. –

답변

3

SciDB.org이라는 새로운 DBMS를 제안하고자합니다. 그들은 과학적 분석 처리에 더 초점을 맞추기 때문에 일반적인 DBMS는 아니라고 주장합니다. 특히 시계열 데이터에 최적화되어 있으며 클라우드에서 실행되도록 최적화 할 수 있습니다.

데이터가 시간 차원에서 빠른 액세스를 허용하는 행과 반대되는 열에 데이터를 저장하기 때문에 시계열 데이터에 최적화되어 있습니다.

당신은 그것을 검사해야합니다.

필자는 몇 달 동안 초당 2000 개 샘플을 샘플링하는 데이터를 분석하는 데 사용했습니다.

+0

매우 흥미 롭습니다! 나는 그것을 조사 할 것이다. 공유해 주셔서 감사합니다. –