1

다음 시나리오를 고려하십시오. 나는 충격 흡수를위한 카프카 중개인과 많은 고객들로 하여금 user1.rar 파일을 보내고 user1.r01, user1.r02 ... 파일들 (각각 128KB)로 나눈다. 하나의 주제로 소비되면 예상대로 잘 작동합니다. 문제는 토폴로지의 다운 스트림 파일을 압축 해제하고 압축을 풀 결과를 최종 저장소로 스트리밍해야한다는 것입니다.카프카 파일 스트리밍

나쁜 점은 한 사용자가 모든 rars를 저장할 수있는 운영 스토리지가 없다는 것입니다. 한 주제에서 파일을 간소화하기 위해 kafka에 어떤 방법이 있더라도 스트림 풀기를 할 수 있습니다. 내가, 내가 한 소비자를 사용

  • 경우, 나는 그것의 RAM을 압도 것을 매우 두려워 사용자 1,000 번 스트리밍을 시작하고 내가 여러 소비자를 사용하는 경우 rXX 파일이 주제
  • 에 혼합 얻을 것이다, 나는 kafka가 "똑똑한 라우팅"을 가지고 있다고 생각하지 않기 때문에 소비자 중 한 명이 죽을 때 리 밸런싱 + 리셋을 어떻게 할 것인지에 대해 하나의 사용자 (사용자 한 명/그룹과 관련된)의 키만 읽을 수 있습니다 ...

이 상황을 어떻게 처리 할 패턴이 있습니까?

감사합니다.

답변

0

저는이 모든 것을 처음 접했지만 카프카 문서를 올바르게 읽었습니다. 카프카 문서를 올바르게 이해하면 커넥터/작업 (https://kafka.apache.org/documentation/#connect_overview - 8.3 장 참조)을 사용해야하며, 특히, SourceConnector/SourceTasks는 커넥터에 대한 최대 작업 ("tasks.max")을 정의 할 수 있으며 SourceConnector/SourceTasks의 폴링 특성과 함께 서버가 과부하되는 것을 방지 할 수 있습니다. 작업을 처리 한 후 문서를 올바르게 이해하면 삭제해야합니다.

저는이 모든 것을 처음 접했지만 이것이 도움이되기를 바랍니다.

관련 문제