2017-10-25 1 views
0

여러 장치에서 메트릭 데이터를 수집하는 방법을 찾고 있습니다. 데이터는 여러 "그룹화"기능과 같이 집계해야합니다. 집계 함수 목록은 완전하지 않으며 나중에 새 집계가 추가되며 첫날부터 수집 된 모든 데이터를 집계해야합니다.카프카 주제를 사용하여 수년간 데이터 저장

유효 기간이 100 년인 카프카 (Kafka) 주제를 만들고이 용도로 데이터 저장소로 사용하는 것이 좋습니까? 따라서 새로운 집계는 주제의 시작에서 읽을 수있을 것입니다. 기존 집계는 그 오프셋으로부터 계속됩니다.

+0

, 당신은 이상적으로 HDFS 또는 S3와 같은 실제 파일 시스템에 덤프한다 세기의 데이터. 데이터는 처리중인 응용 프로그램보다 오래 지속될 수 있습니다. 또한 Kafka가 항상 실행되고 수년간의 데이터를 저장하고 읽을 수있는 하드 드라이브가 충분한 지 확인해야합니다. –

+0

명심해야 할 점은 브로커 시작시 모든 로그를 검사해야하므로 클러스터 재시작 (특히 부정한 종료 이후)에는 시간이 오래 걸릴 수 있다는 것입니다. 그 외에도 S3/HDFS/similar로 데이터를 덤핑하는 것이 선호되는 솔루션이되어야한다는 것에 동의하지만, 이렇게하지 않는 큰 이유는 생각할 수 없다. –

답변

1

는, 예를 장기간 저장을 위해 카프카를 사용할 수있는 디스크 공간이 부족하지 않도록하는 크기에 대한 보존 정책을 가진 권 해드립니다 - 추가 집계/계산을 유도하기위한 소스 데이터의 재 처리

참조의 몇 가지 : 당신이 다루고있는 경우 사용할 수있는 자원을 가지고 가정

1

예 데이터를 유지하려면 보존 시간을 큰 값으로 늘리면됩니다.

는 아직도 정확히 이유는 당신이 윤곽을 위해, 당신은 원칙적으로

+0

압축 된 주제는 어떻게됩니까? –

관련 문제