Apache Kafka에서 읽는 애플리케이션을 계획하고 (잠재적으로 시간이 많이 걸리는) 처리 후에는 데이터를 데이터베이스에 저장합니다.Apache Spark/Apache Flink로 스케일링
내 경우는 메시지가 아니라 스트림이지만 확장성에 대한 것입니다. Spark 또는 Flink에 연결하는 것에 대해 생각하고 있지만 이러한 크기 조정 방법을 이해할 수는 없습니다. 내 앱, Spark/Flink의 일부가 읽었을 때 Kafka의 데이터를 읽고 종료하거나 계속 읽는 중입니까?
Spark/Flink는 처리량을 개선하기 위해 내 앱을 더 많이 생성해야한다고 어떻게 결정할 것인가?
감사합니다!
Spark에는 동적 할당이 있습니다. 기억할 때까지 마이크로 배치 간격이 마이크로 배치 간격에 가까워 질 때 새로운 실행 프로그램을 만듭니다. –
저는이 두 가지를 처음 접했습니다 - 어떻게하면 내 앱이 어떻게 동작해야합니까? 카프카에서 한 번만 읽고 출구에서해야합니까? 대기열에 더 많은 데이터가있는 경우 읽을 수있는 새로운 작업을 생성해야한다는 것을 Spark/Flink에서 어떻게 알 수 있습니까? – estoy
그냥 스트리밍 작업을 만들면 Spark가 자동으로 실행 프로그램의 번호를 조정합니다 –