저는 flume과 함께 hdfs에 많은 양의 데이터를 수집하고 있습니다 (페타 바이트 단위의 데이터). flume이 분산 아키텍처를 어떻게 사용하고 있는지 알고 싶습니다. 나는 200 대가 넘는 서버를 보유하고 있으며, 데이터 소스 (일명 데이터 소스)를 가져올 곳과 hdfs에서 싱크대를 설치했습니다. (hadoop은이 서버에서 serengeti를 통해 실행됩니다). flume이 클러스터를 통해 배포되는지 또는 클러스터를 잘못 설치했는지는 확실하지 않습니다. 나는 flume installation과이 게시물에 대한 apache 사용자 가이드를 따랐다. 어떻게 flume이 배포됩니까?
http://flume.apache.org/FlumeUserGuide.html#setup
How to install and configure apache flume?
나는 초보자는 수로와 it..Any의 도움을 크게 감상 할 수에 대한 자세한 내용을 이해하려고 노력하는입니다. 감사!!
파일 채널을 실행하고 있다면, 모든 * 배치에 대해'fsync'가 있다는 것을 알아 두십시오. 자기 HDD가있는 동일한 노드에서 두 개의 에이전트를 실행하는 경우 두 채널이 디스크에 서면으로 서로 경쟁하게되며 느려질 것입니다. – Sarge
두 개의 flume 에이전트가 두 개의 물리적 노드에서 실행되는 두 번째 경우에는 조정이 어떻게 이루어 집니까? 그것은 JMS 대신 kafka 브로커라고 가정합니다.그런 다음 에이전트가 모든 주제 메시지가 소비 된 것과 관련하여 조정자가 어떻게 조정하여 두 에이전트가 동일한 메시지를 싱크대로 두 번 보내지 않도록 할 것입니다. –