0
하이브와 돼지에서 모두 가져온 데이터 세트 (~ 1TB)가 있습니다. 우리의 전체 hadoop 클러스터를 사용하지만 레코드의 수를 계산하기 위해 Hive가 돼지보다 훨씬 빠른 시간 차이가 있습니다. 돼지돼지의 계산 항목이 하이브보다 훨씬 느린 이유
select count(*) from india_tab;
Time taken: 61.103 seconds, Fetched: 1 row(s)
:
는data = LOAD 'warehouse/india_tab/*' USING PigStorage()
AS (ac_id:int, c_code01:chararray, longitude:float, latitude:float, satillite:chararray, month:chararray, day:chararray, timestamp:int, cm:int, li:double, tir:int,vis:int);
grpd = GROUP data ALL;
cnt = FOREACH grpd GENERATE COUNT(data);
DUMP cnt;
Runtime: 6m 9s
그래서 나는 테스트를 다시 실행했고 돼지는이 많은 1111 매퍼, 1 개의 감속기, 하이브를 실행합니다. 반면에 하이브는 매퍼의 수입니다 : 406; 감속기의 수 : 1 돼지가 왜 더 많은 문자를 사용하는지 정확히 알 수는 없지만, PARALLEL 문서는 기본적으로 1이기 때문에 동일한 수의 감속기를 사용하고있는 것 같습니다. – BrockP