나는 다음과 같은 요구 사항을 센서 데이터 수집 시스템을 평가하고엄청난 규모의 센서 데이터를 실시간으로 저장하기위한 HIVE/HDFS?
- 데이터의 100 바이트 (시계열)을 매 순간에 보내는 1 백만 엔드 포인트.
기본적으로 수백만 개의 작은 쓰기가 저장소에 저장됩니다.
This data is write-once, so basically it never gets updated.
- 액세스 요구 사항
가. 사용자의 전체 데이터는 정기적으로 액세스해야합니다 (빈번하지 않음)
b. 사용자에 대한 부분 데이터는 정기적으로 액세스해야합니다 (빈번하게 액세스해야 함). 예를 들어, 분석 /보고를 위해 지난 1 시간/1 주/1 개월에 수집 된 센서 데이터가 필요합니다.
하이브/HDFS를 옵션으로 살펴보기 시작했습니다. 누군가 Hive의 적용 가능성에 대해 언급 할 수 있습니까? 분산 저장 장치 요구 사항이 작동하는 동안 실시간 데이터 수집/저장보다 데이터웨어 하우징 응용 프로그램에 더 적합하다고 생각됩니다.
이 시나리오에서 HBase/Cassandra가 더 적합합니까?
엔드 포인트가 사용자와 어떻게 관련되는지 명확히 할 수 있습니까? 얼마나 많은 사용자가 원하는가, 그리고 얼마나 많은 데이터가 "사용자의 전체 데이터"입니까? – DNA
엔드 포인트는 대략적으로 사용자에게 번역됩니다. 그리고 1 년 동안 100 바이트/분으로 사용자에게 수집 된 데이터는 약 50MB입니다. 1M 사용자의 경우 이는 약 50TB의 데이터입니다. – user393144