여러 장치에서 메트릭 데이터를 수집하는 방법을 찾고 있습니다. 데이터는 여러 "그룹화"기능과 같이 집계해야합니다. 집계 함수 목록은 완전하지 않으며 나중에 새 집계가 추가되며 첫날부터 수집 된 모든 데이터를 집계해야합니다.카프카 주제를 사용하여 수년간 데이터 저장
유효 기간이 100 년인 카프카 (Kafka) 주제를 만들고이 용도로 데이터 저장소로 사용하는 것이 좋습니까? 따라서 새로운 집계는 주제의 시작에서 읽을 수있을 것입니다. 기존 집계는 그 오프셋으로부터 계속됩니다.
, 당신은 이상적으로 HDFS 또는 S3와 같은 실제 파일 시스템에 덤프한다 세기의 데이터. 데이터는 처리중인 응용 프로그램보다 오래 지속될 수 있습니다. 또한 Kafka가 항상 실행되고 수년간의 데이터를 저장하고 읽을 수있는 하드 드라이브가 충분한 지 확인해야합니다. –
명심해야 할 점은 브로커 시작시 모든 로그를 검사해야하므로 클러스터 재시작 (특히 부정한 종료 이후)에는 시간이 오래 걸릴 수 있다는 것입니다. 그 외에도 S3/HDFS/similar로 데이터를 덤핑하는 것이 선호되는 솔루션이되어야한다는 것에 동의하지만, 이렇게하지 않는 큰 이유는 생각할 수 없다. –