2012-03-24 7 views
5

증권 거래 가격과 관련하여 많은 재무 데이터를 분석하기위한 시스템을 구축하고 있습니다. 이에 대한 큰 도전은 데이터가 테라 바이트의 10에 해당 될 경우 데이터에 사용할 저장 방법을 결정하는 것입니다. 평균을 취하거나, 표준 편차를 계산하거나, 가격, 시간, 볼륨 등과 같이 여러 열로 필터링 된 합계와 같은 데이터에 대한 많은 쿼리가있을 것입니다. Join 문은 필수 조건은 아니지만 가지고 있으면 좋을 것입니다.재무 분석 용 데이터 저장소

지금은 평가 목적으로 infobright 커뮤니티 에디션, monetdb 및 greenplum 커뮤니티 에디션을 검토 중입니다. 지금까지는 좋았지 만 고급 기능을 사용하려면 여러 버전 (여러 서버, 삽입/업데이트 문 등 사용)에서 일부 기능을 사용할 수 없습니다.

이 상황에서 어떤 솔루션을 사용 하시겠습니까? 이점을 통해 대안을 제공합니까? 비용 효과가 큰 장점입니다. 필자가 원하는 데이터웨어 하우징 솔루션에 비용을 지불해야한다면 가능하면 오히려이를 피하고 오픈 소스/커뮤니티 에디션을 선택해야합니다.

+1

평균 (합계), 평균, 필터링 된 경우에도 stddevs는 데이터 마이닝이 아닙니다. 그들은 단지 평범한 ** 통계 **입니다. –

+1

데이터 마이닝은 일련의 데이터에서 새로운 정보를 발견하는 것입니다. 통계는이 과정을 돕는 도구입니다. 저는 용어에 대한 강조가 도움이된다고 생각하지 않습니다. 우리가 그것에 대해 논쟁한다면, 어떤 것도 성취하지 못할 것입니다.그것은 당신이 통계를 "통계학"으로 잘못 표기했기 때문에 당신의 게시물에 동의하지 않는다는 것과 같은 말입니다. 그것은 전문성에 대한 불필요한 강조입니다. 내 목표는이 데이터베이스를 사용하여 새로운 정보를 발견하는 것입니다. 또한 데이터웨어 하우징 솔루션은 데이터 마이닝을 염두에두고 개발되었습니다. 따라서 여기서 데이터 마이닝 개념을 적용 할 수 있습니다. – user396404

+0

그러나 나는 "데이터베이스"가이 게시물의 더 좋은 태그 일 것임에 동의합니다. – user396404

답변

1

Infobright는 아무런 튜닝없이 예측할 수없고 빠른 쿼리 성능을 제공합니다 많은 양의 데이터에 대해 색인을 생성합니다. 데이터 로딩시, 시간당 80TB의 데이터를로드 할 수 있으며 초당 12,000 개 이상의 삽입을 볼 수 있습니다.

어떻게 작동합니까? 행 방향 대

  1. 열 방향
  2. 데이터 팩 플러스 (20)의 압축 평균 : 1
  3. 지식 그리드 - 쿼리에 하위 두 번째 응답
  4. MySQL의 아키텍처를 기반으로 구축 세분화 된 엔진,

엔터프라이즈 라이센싱을 고려해 볼 것을 제안하지만 커뮤니티 버전을 확실히 평가하고 성능 및 데이터로드 요구 사항을 테스트 할 수는 있습니다.

면책 조항 : 저자는 Infobright와 제휴 관계입니다.

1

내가 언급 한 데이터베이스 중 하나가 필요한 것을 수행 할 것이라고 생각합니다. 10 TB의 데이터를 처리하는 경우 MPP 클러스터에서 실행되는 엔터프라이즈 라이센스를 얻는 것이 처리 시간을 줄이기위한 좋은 자금 사용 일 것입니다. 또한이 DW가 조직에 중요한 처리를 수행하는 경우 라이선스가 있으면 많은 업체에서 중요한 지원 업체를 얻을 수 있음을 의미합니다. YMMV.

더 중요한 질문은 데이터 수집 속도가 어떻게 될 것입니까? 금융 시스템의 경우, 정상적인 처리를 계속하면서 방정식의 상당 부분은 시스템에 새로운 데이터로드를 유지하는 기능이어야한다고 생각합니다.

저는 후보자 목록에서 Greenplum에 대해서만 알고 있지만 짧은 시간에 많은 양의 데이터를로드하는 것이 좋습니다. GP에는 내장 된 SQL 함수, MADLib, R 등을 포함하여 DB 내부에서 기본적으로 실행할 수있는 내장 통계 및 분석 함수가 많이 있습니다.