2011-11-20 3 views
2

저는 고객에게 심층적 인 실시간 분석을 제공 할 수있는 완벽한 스케일 아웃 솔루션을 개발 중입니다.Hadoop 및 분석?

고객은 주로 최대 200 개의 서버를 보유하고 있으며 각각 최대 400 개의 세션이 진행 중이므로 동시에 80000 개의 세션을 제공합니다. 세션에 대한 분석을 제공하고 그래픽 및 쿼리 인터페이스 (기본적으로 쿼리 집계)를 제공하기 위해 Tableau와 같은 BI 도구를 사용할 수 있기를 바랍니다.

각 세션의 길이는 4 분이고 4 분 이내에 약 20 개의 이벤트가 트리거 될 것으로 예상됩니다. 각 이벤트는 약 5 개의 필드, 주로 정수 일 수 있습니다. 시작일, 종료일 및 세션 중 기본적으로 일부 카운터 (예 : 클릭 수)를 기록합니다. 이것은 초당 약 8000 개의 인서트입니다.

RDBMS는 분명히 스케일 아웃하기가 쉽지 않기 때문에 Hadoop에 관한 것이지만 (PostgreSQL이 5000-8000 $ 머신에서이로드를 처리 할 수 ​​있다고 확신한다면 PostgreSQL을 사용할 것입니다).

그러나 Hadoop은 배치 지향적이므로 지연 시간이 너무 길기 때문에 분석에는 적합하지 않을 수 있습니다. 어떻게 생각해 ?

웹 마케팅 업계에서 데이터베이스에 공급하고 쿼리하는 데 사용되는 솔루션은 무엇입니까?

감사합니다.

답변

3

사실, Hadoop의 핵심은 일괄 처리 방식이므로 실시간 데이터 분석이 아닌 주기적보고가 더 좋습니다.

하나의 옵션은 이벤트 처리 전용의 그래프 및 로깅 시스템을 사용하는 것입니다. 이 경우 Graphite과 같은 도구가 사용자의 요구에 가장 적합 할 것으로 보입니다. 이 방법을 사용할 수있는 방법을 설명하는 post on the Etsy engineering blog이 있습니다.

Hadoop을 좋아한다면 OpenTSDB과 같이 HBase을 사용하는 Hadoop 위에 제작 된 것을 사용합니다.

+0

그래파이트는 모니터링에는 좋지만 분석 항목에는 적합하지 않습니다 (필터/조인 ...). 어쨌든 지적 해 주셔서 고마워요! – SCO

4

Twitter는 오픈 소스 Storm을 가지고 있으며, Hadoop of realtime processing이라고합니다. use casestream processingdistributed rpc은 위에서 언급 한 요구 사항을 충족합니다. 이는 Hadoop과 관련이 없습니다. Here은 Storm의 프레젠테이션입니다. 그런 다음 HStreaming이 있으며 Hadoop 상단에 S4, Streambases이 있습니다.

평야 Hadoop은 일괄 처리에 적합하며 실시간 분석에는 적합하지 않습니다. 위의 내용은 입니다.의 실시간 분석을위한 것입니다. 그들 중 일부는 (HStreaming과 같은) Hadoop 위에 앉아 있고 어떤 것은하지 않습니다. 일부는 무료이며 일부는 상업적입니다. 세부 요구 사항 연구를 기반으로 다양한 종류의 변형이 있으며, 다양한 S/W에서 지원되는 기능을 사용할 수 있으며 최종적으로 S/W 개념을 증명할 수 있습니다.

0

일괄 처리의 경우 해당 사실은 해당 하둡 (잘 맵 축소)입니다. 그러나 hadoop은 분산 fs 시스템이기도합니다. 실시간 데이터가 클러스터에 입력되면 작업자 노드가 사용 가능할 때이를 처리하도록 할 수 있습니다.

예를 들어, 5 분마다 대시 보드를 업데이트하려는 경우 hdfs에서 읽는 악마, 개별 추적 서버에서 새로 추가 된 모든 로그 파일을 설정하고 웹 응용 프로그램이 읽는 저장소를 업데이트 할 수 있습니다 데이터.

하루가 끝날 무렵지도를 사용하면 demmon이 수행 한 것과 동일한 작업을 수행 할 수 있습니다. 이번에는 오늘의 모든 파일과 클러스터의 모든 노드를 사용합니다.