우리는 많은 데이터, 최대 150 만개의 타임 스탬프 레코드, 즉 약 24MB, 초당 약 2TB를 생성하는 시스템을 보유하고 있습니다.타임 스탬프 된 데이터를 저장하는 플랫폼
데이터는 여러 소스에서 제공되며 여러 형식이 있습니다. 한 가지 공통점은 타임 스탬프입니다.
현재 약 5 일간의 데이터를 파일에 저장하고 보고서를 생성하는 사내 소프트웨어를 보유하고 있습니다.
우리는 수년간의 데이터를 보유하고 쿼리 할 수있는 확장 가능한 시스템을 개발하려고합니다.
우리는 Nathan Marz가 How to beat the CAP theorem에서 설명한 것과 같이 장기간 배치 스토리지 용 Hadoop/ElephantDB와 실시간 레이어 용 Storm/Cassandra를 사용합니다.
지역 사회가 대안을 지적하거나 더 읽을 것을 제안 할 수 있는지 궁금합니다.
우리의 데이터가 시간에 따라 주로 구성된다는 사실은 특정 유형의 솔루션에 적합합니까?
이런 종류의 질문을하는 더 나은 포럼이 있습니까?
감사
집계/배치 보고서를 수행해야하거나 실시간 액세스가 필요합니다. 그렇다면 액세스 패턴의 예를 제시하십시오 –
집계/배치 보고서와 실시간 액세스가 모두 필요합니다. 일반적으로 사용자는 시간 기반 보고서를 요청합니다. 시간 t1-t2 동안이 항목 (또는이 항목)의 가치는 얼마입니까? 특정 항목 값이 범위를 벗어난 시간은 몇 번입니까? – wsh8z
단일 보고서에 대해 집계 할 데이터의 크기는 얼마입니까? –