매우 큰 데이터를 처리하는 방법은 무엇입니까?

저는 기본적으로 매우 큰 데이터베이스가 있어야하는보고 도구 인 새 프로젝트를 시작하려고합니다.매우 큰 데이터를 처리하는 방법은 무엇입니까?

테이블 수가 많지 (< 200), 대부분의 데이터 (80 %)가 20 개의 테이블에 포함되며 모든 데이터는 거의 삽입/읽기 전용 (업데이트 없음)입니다.

한 테이블의 예상 데이터 양은 분당 240,000 레코드로 증가 할 것이며, 다양한 보고서를 작성하려면 최소한 1 년에서 3 년간 유지해야하며 관리자가 온라인으로 볼 수 있습니다 .

그 큰 데이터베이스와 첫번째 손 경험이 없어, 그래서 DB는이 상황에서 최선의 선택을하는이 사람을 부탁 해요. 나는 오라클이 안전한 내기이지만, 누군가 hadoopdb 나 구글의 큰 테이블 같은 경험이 없다면 더 관심이있다. 나를 안내하십시오. 사전

출처

2012-04-02 jenitshah

당신이 * 정말 * 모든 데이터를 보관해야합니까 예를 들어, 나는 Acunu 카산드라의 자신의 맛에 삽입 분석에 무엇을하고 있는지보고 싶은데? 어떻게 든 집계 할 수 있습니까? 원시 데이터를 버킷에 병합 하시겠습니까? 초당 4000 레코드는 약간 미친 짓이다. 기록이 얼마나 큽니까? –

계산기를 곧바로 사용하는 사람이라면 누구나 3 년 후 3,784,320,000 건의 기록을 남길 것입니다. < – Corbin

답장을 보내 주셔서 감사합니다. 내 프로젝트가보고 도구이므로보고 싶으면 1 년 이상보고하면 그 데이터를 3 년 이상 보관해야합니다. 나는 데이터를 집계하지만 모든 보고서의 끝에서 집계 된 형식이 아닌 단일 행 형식으로 데이터를 표시합니다. – jenitshah

에서 덕분에 당신은 또한 아파치 SOLR 그리고 MongoDB를 사용할 수 있습니다. Mongo DB와 Apache Solr는 NOSQL에서 Big Data를 처리 할 때 데이터를 데이터베이스에 삽입하고 검색하는 데 매우 빠르다. Apache Solr 또는 MongoDb 데이터베이스를 사용할 수 있습니다.

출처

2012-04-02 06:26:56

오라클은 충분히 확장하는 데 많은 비용이 소요될 것입니다. MySQL은 확장하기가 어렵습니다. 그들의 잘못이 아닙니다. 이를 위해 RDBMS가 과도합니다.

나는이 데이터로 무엇을하고 계십니까? "다양한 보고서"는 많은 것들이 될 수 있습니다. 이러한 보고서를 일괄, 오프라인으로 생성 할 수 있다면 데이터를 공유 파일 시스템의 플랫 파일로 유지하는 것이 어떻습니까? 더 온라인으로 할 필요가있는 경우

, 다음 예를 지난 이년에서 인기있는 지혜는 몽고, 소파와 카산드라와 같은 NoSQL에 데이터베이스를 살펴 보는 것입니다. 그들은 쉽게 확장 할 수 있고 데이터에 더 많은 랜덤 액세스를 제공하는보다 간단하고 빠른 생물입니다.

올해 NoSQL에서 분석을하는 것은 모두 분노입니다. http://www.acunu.com/blogs/andy-twigg/acunu-analytics-preview/

출처

2012-04-02 08:33:31

안녕하십니까. 답변 해 주셔서 감사합니다. 나는 더 많은 온라인 DB가 필요하므로 관리자에게 온라인보고를 제공해야합니다. 나는 보통 데이터를 집계하고 NOSQL이 데이터 집계가 매우 느리다는 것을 발견했다. 그것은 사실입니까? – jenitshah

NoSQL 데이터베이스에는 본질적으로 집계 프리미티브가 없습니다. 바로 Acunu와 같은 것들을 적절한 실시간 증분 실시간 분석으로 구축해야하는 이유입니다. 나는이 녀석들과 그들이하고있는 일이이 유스 케이스에 대해 상당히 훌륭하다는 것을 안다. –

매우 큰 데이터를 처리하는 방법은 무엇입니까?

답변

관련 문제