2012-09-24 3 views
16

이 질문은 이전에 물어 보았을 수 있습니다.하지만이 기술이 성숙되면서 오늘 다시 고려하는 것이 좋습니다. 우리는 flume, kafka, scribe, 또는 다른 것들 중 하나를 사용하여 나중에 분석을하기 위해 스트리밍 페이스 북과 트위터 프로필 정보를 hbase에 저장하려고합니다. 우리는 목적을 위해 flume을 고려하고 있지만 정보에 입각 한 결정을 내리기 위해 다른 기술을 사용하지 않았습니다. 빛을 비추는 사람은 누구나 좋아할 것입니다! 고마워.flume vs kafka vs others

+0

"이 문서의 나머지 부분은 ... 자세히에서이 주제를 심층적으로"? 낡은 flume이 flume-ng와 매우 다르므로. – Shengjie

답변

18

Mediawiki (위키 피 디아)는 이것을 통해 자신이 선택한 (Kafka) vs Scribe, Flume 및 기타 방법에 대한 멋진 기사를 게시했습니다.

http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging

새로운 링크 : 후세에 대한
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation

요약 :.

"우리의 권고는 아파치 카프카, 처리량을 위해 설계된 분산 술집 서브 메시징 시스템은 우리에 대한 평가 분산 로그 수집, CEP/스트림 처리 및 실시간 메시징 시스템의 영역에서 가져온 수십 종류의 최고의 시스템이 있습니다. 이러한 시스템은 놀라운 기능을 제공하지만 y 유사한 기능을 제공하지만 구현 방식이 크게 다르며 각각 특정 업무 프로파일에 특화되어 있습니다 (보다 철저한 기술 토론은 부록으로 제공됩니다).

"Kafka는 처리량을 전문으로하고 아키텍처의 모든 계층에 명시 적으로 배포되어 있기 때문에 두드러집니다. 흥미롭게도 성능 대가로 보증을 완화하는 현명한 절충을 제공하는 것은 자원 절약과 관련이 있습니다 [2]. 페이스 북이나 구글을 디자인하는 시스템에서 중요한 기능으로 부각시킬 수는 없다. "제약은 창의력을 낳는다."카프카는 또한 운영 독자들에게 특히 흥미로운 점이 몇 가지있다. 스칼라로 작성된 반면 캐시 서버용 모듈에 임베디드 할 수있는 네이티브 C++ 제작자 라이브러리가 함께 제공되므로 해당 서버에서 JVM을 실행할 필요가 없습니다. 둘째, 생산자는 네트워크 트래픽을 최적화하기위한 요청을 일괄 처리하도록 구성 할 수 있지만 추가 유지 관리가 필요한 영구 로컬 로그를 생성하지 마십시오. Kafka의 I/O 및 메모리 사용량은 JVM보다는 OS에 맡겨져 있습니다 [3].

"Kafka는 LinkedIn에 의해 작성되었으며 현재 Apache 프로젝트입니다 .LinkedIn에서 생산중인 약 10,000 명의 제작자는 데이터 센터 당 8 대의 Kafka 서버로 처리됩니다.이 클러스터는 Kafka가 지원하는 단일 분석 데이터 센터로 스트림을 통합합니다.

"이 기능은 의도 된 사용 사례에 매우 적합합니다. 우리가 사용하려고하지 않는 것조차 - 예를 들어, "주제"카테고리에 의한 샤딩 및 라우팅은 흥미롭고 앞으로 우리가 목표를 확장 할 때 유용 할 수도 있습니다. 당신은 아마도 당신이 수로-ng에 참조하고, 수로에 대해 이야기 할 때

+0

링크가 지금 고장난 것으로 보입니다. – tehAon