2017-03-21 3 views
1

내가 조 "에 의해 주문"선택 쿼리를 수행 할, 내 데이터가 여러 기계에 분포한다고 가정 해 봅시다. 방법 맵 축소 데이터 가져 오기 및 수행 위치 "주문 접수" 쿼리.하둡 맵리 듀스 기능

답변

0

Map-Reduce를 사용하여 분산 된 "주문자"를 구현할 수 있습니다.

... 야후의 하둡 클러스터 중 하나는 ... 정렬 1800지도와 1800 감소 ...

Apache Hadoop Wins Terabyte Sort Benchmark

이 수를 사용하는 209 초 데이터를 1 테라 바이트 정렬 값에 따라 범위 키에 순서 키를 매핑하여 수행 할 수 있습니다.


하이브 그러나 하나의 감속기로 "주문"을 구현합니다.

... 모든 결과의 전체 순서를 지정하려면 최종 출력을 정렬하려면 감속기가 하나 있어야합니다. 출력 의 행수가 너무 큰 경우, 하나의 감속기 그것을 결정하는 방법

Hive - LanguageManual - Sort By - Syntax of Order By

+0

... 완료하는 데 시간이 오래 걸릴 수 있습니다, 얼마나 많은지도 및 작업을 감소하는 것 쿼리 실행에 필요합니까? 감속기가 최종 출력을 정렬하는 곳 (어떤 메모리에서)? –

+0

데이터 소스 크기에 따라 맵핑되지만 (일부 데이터 형식은 맵 1 개로 제한됨). 감속기 - 1 –

+0

감속기가 최종 출력을 정렬하는 곳 (메모리에서)? 당신이 말했듯이 –

관련 문제