타임 스탬프 된 데이터를 저장하는 플랫폼

우리는 많은 데이터, 최대 150 만개의 타임 스탬프 레코드, 즉 약 24MB, 초당 약 2TB를 생성하는 시스템을 보유하고 있습니다.타임 스탬프 된 데이터를 저장하는 플랫폼

데이터는 여러 소스에서 제공되며 여러 형식이 있습니다. 한 가지 공통점은 타임 스탬프입니다.

현재 약 5 일간의 데이터를 파일에 저장하고 보고서를 생성하는 사내 소프트웨어를 보유하고 있습니다.

우리는 수년간의 데이터를 보유하고 쿼리 할 수있는 확장 가능한 시스템을 개발하려고합니다.

우리는 Nathan Marz가 How to beat the CAP theorem에서 설명한 것과 같이 장기간 배치 스토리지 용 Hadoop/ElephantDB와 실시간 레이어 용 Storm/Cassandra를 사용합니다.

지역 사회가 대안을 지적하거나 더 읽을 것을 제안 할 수 있는지 궁금합니다.

우리의 데이터가 시간에 따라 주로 구성된다는 사실은 특정 유형의 솔루션에 적합합니까?

이런 종류의 질문을하는 더 나은 포럼이 있습니까?

감사

출처

2011-10-27 wsh8z

집계/배치 보고서를 수행해야하거나 실시간 액세스가 필요합니다. 그렇다면 액세스 패턴의 예를 제시하십시오 –

집계/배치 보고서와 실시간 액세스가 모두 필요합니다. 일반적으로 사용자는 시간 기반 보고서를 요청합니다. 시간 t1-t2 동안이 항목 (또는이 항목)의 가치는 얼마입니까? 특정 항목 값이 범위를 벗어난 시간은 몇 번입니까? – wsh8z

단일 보고서에 대해 집계 할 데이터의 크기는 얼마입니까? –

이 같은 시간에 실시간으로 액세스 및 확장 성 일괄 처리를 모두 가지고 어려운 문제입니다.
완벽 솔루션이 없지만 다음과 같은 두 가지 기능을 탐색 할 수 있습니다. a) 시간별 파티션과 하위 키 (클라이언트 ID 또는 이와 유사한 항목) 별 하이브. 이 솔루션은 당신을 줄 것이다 : 데이터
좋은 성능은 집계 보고서에 하나 개의 서브 파티션 액세스
아마 허용 시간을
좋은 처리량을 가져옵니다. 비록 1-2 초가되지는 않을 것이다.

b) 활발한. 그것은 HDFS를 대체하는 카산드라와 함께합니다. 그것은 당신이 필요로하는 모든 것을 제공하겠다고 약속했지만, 데이터로드 성능과 배치 리포트 성능이 바닐라 파이프 라인 성능보다 떨어질 것으로 기대합니다.

출처

2011-11-11 10:12:01

타임 스탬프 된 데이터를 저장하는 플랫폼

답변

관련 문제