2014-04-21 2 views
0

안녕하세요 저는 mapreduce가 적합하지 않은 영역으로 인해 문제가 발생하고 있습니다. 소량의 데이터가있는 mapreduce를 사용할 시점이 없다는 것을 이해합니다. 그러나 어떤 종류의 '복잡한'질의가 mapreduce에 적합하지 않습니까?mapreduce는 언제 비즈니스에 적합하지 않습니까?

데이터 페타 바이트가있는 비즈니스와 마찬가지로 mapreduce는 한 달 내에 판매 된 제품 유형의 총 수량을 합한 쿼리에 좋은 아이디어일까요?

그러나 비즈니스가 일반적으로 어떤 복잡한 쿼리를 사용하면 실제 수익을 추가하지 않는 mapreduce가 발생합니까?

+0

질문은 모호합니다. "복잡한 쿼리"가 의미하는 것과 "실질적인 이익이 없다"는 것을 구분할 수 있습니다. Hiber, 복잡한 조인, 동적 데이터, 데이터 정규화 등과 같은 일반적인 RDBMS보다 나은 경우가 있습니다. – swdev

+0

@swdev ive는 mapreduce가 간단한 집계 쿼리에는 적합하고 간단한 집계가 아닌 쿼리에는 적합하지 않다고 읽었습니다. 비즈니스가 사용하는 쿼리를 간단한 집계 쿼리가 아니라 생각할 수 있습니다! 당신이 예제 ID를 생각하면 감사 할 수있다 :) – bdavies6086

답변

0

일반적으로 mapreduce/hive의 모든 것은 집계 쿼리이지만 집계되지 않은 쿼리를 가질 수 있습니다. 그것은 "감소"연산이없는 쿼리 일뿐입니다.

하이브는 여러 쿼리와 윈도우 함수 등을 사용하여 상당히 복잡한 쿼리를 수행 할 수 있습니다. 따라서 "mapreduce가 간단한 집계 쿼리에 적합합니다"라는 문구가 완전히 사실인지는 확실하지 않습니다.

mapreduce/hive에 적합하지 않은 비즈니스 쿼리 유형은 실시간 쿼리입니다. 예를 들어 트위터에 대한 최상위 해시 태그와 같은 트렌드 쿼리는 오버 헤드로 인해 비효율적입니다.

또는 어떤 이유로 든 데이터를 정규화해야하는 경우 mapreduce/hive는 기본적으로 하나의 테이블에 있어야합니다. 예를 들어 고도로 정규화 된 "POS"데이터베이스가 있고 데이터를 처음에 비정규 화하지 않는 한 고통 스러울 수있는 종류의 쿼리를 수행하려고합니다.

0

예를 들어보고/데이터 시각화가 그 예입니다. 보고 BI 도구 중 일부는 Hive를 플러그인으로 사용하지만 데이터 처리/MapReduce 완료까지 몇 분 동안 기다리지 않으려 고 할 수도 있습니다. 이 경우 ETL을 수행하고 HDFS에서 RDBMS로 MySQL/Infobright와 같은 데이터를 이동하고 RDBMS에서보고를 사용합니다.

관련 문제