다음과 같은 문제점이 있습니다. 시스템이 다른 사이트에서 매일 ~ 300M 히트를 수집합니다. 마다 시간, 사용자 ID, 유형 (광고 또는 평소), http 주소, 사이트 ID가 있습니다.빠른 웹 분석 (대용량 데이터 배열)을위한 DB, OLAP 솔루션 선택
성별, 연령대 및 국가가있는 ~ 200M 명의 사용자 배열이 있습니다.
히트 데이터를 기반으로하는 시스템을 설계하려면 다른 사용자 그룹의 히트에 대한 실시간 보고서를 제공해야합니다.
:-) OLAP 솔루션과 마찬가지로 예를 들어, 구축, 15 ~ 25 세, 영국의 10 월에서 9 월 여자를위한 명중에 2011 년
당신이 선택하는 것이 좋습니다 데이터베이스및 솔루션을 그래프 플롯하기 OLAP 큐브?
HBase (+ zohmg 또는 계단식) Hypertable 또는 기타 (무료 DWH :-))와 같은 opensource 솔루션을 찾고 있습니다.
언급하는 것을 잊었습니다. 데이터를 사전 집계 할 때 발생할 수있는 문제는 사용자의 정보가 변경 될 수 있다는 것입니다. 예를 들어 사용자가 다른 국가로 이전하면 사용자는 이미 수행 한 사전 집계에 대해 이전 국가에서 계산됩니다. 이는 비즈니스 규칙에 따라 바람직하거나 그렇지 않을 수 있습니다. – ajduff574
또한 각 쿼리에 대해 * 고유 * 사용자 수 (총 조회 수보다)가 필요한 경우이 사전 집계가 작동하지 않습니다. – ajduff574