2011-10-27 4 views
1

우리는 많은 데이터, 최대 150 만개의 타임 스탬프 레코드, 즉 약 24MB, 초당 약 2TB를 생성하는 시스템을 보유하고 있습니다.타임 스탬프 된 데이터를 저장하는 플랫폼

데이터는 여러 소스에서 제공되며 여러 형식이 있습니다. 한 가지 공통점은 타임 스탬프입니다.

현재 약 5 일간의 데이터를 파일에 저장하고 보고서를 생성하는 사내 소프트웨어를 보유하고 있습니다.

우리는 수년간의 데이터를 보유하고 쿼리 할 수있는 확장 가능한 시스템을 개발하려고합니다.

우리는 Nathan Marz가 How to beat the CAP theorem에서 설명한 것과 같이 장기간 배치 스토리지 용 Hadoop/ElephantDB와 실시간 레이어 용 Storm/Cassandra를 사용합니다.

지역 사회가 대안을 지적하거나 더 읽을 것을 제안 할 수 있는지 궁금합니다.

우리의 데이터가 시간에 따라 주로 구성된다는 사실은 특정 유형의 솔루션에 적합합니까?

이런 종류의 질문을하는 더 나은 포럼이 있습니까?

감사

+0

집계/배치 보고서를 수행해야하거나 실시간 액세스가 필요합니다. 그렇다면 액세스 패턴의 예를 제시하십시오 –

+0

집계/배치 보고서와 실시간 액세스가 모두 필요합니다. 일반적으로 사용자는 시간 기반 보고서를 요청합니다. 시간 t1-t2 동안이 항목 (또는이 항목)의 가치는 얼마입니까? 특정 항목 값이 범위를 벗어난 시간은 몇 번입니까? – wsh8z

+0

단일 보고서에 대해 집계 할 데이터의 크기는 얼마입니까? –

답변

0

이 같은 시간에 실시간으로 액세스 및 확장 성 일괄 처리를 모두 가지고 어려운 문제입니다.
완벽 솔루션이 없지만 다음과 같은 두 가지 기능을 탐색 할 수 있습니다. a) 시간별 파티션과 하위 키 (클라이언트 ID 또는 이와 유사한 항목) 별 하이브. 이 솔루션은 당신을 줄 것이다 : 데이터
좋은 성능은 집계 보고서에 하나 개의 서브 파티션 액세스
아마 허용 시간을
좋은 처리량을 가져옵니다. 비록 1-2 초가되지는 않을 것이다.

b) 활발한. 그것은 HDFS를 대체하는 카산드라와 함께합니다. 그것은 당신이 필요로하는 모든 것을 제공하겠다고 약속했지만, 데이터로드 성능과 배치 리포트 성능이 바닐라 파이프 라인 성능보다 떨어질 것으로 기대합니다.