2017-02-09 3 views
0

resultdate 필드의 날짜와 시간에 따라 테이블을 파티션해야합니다. 형식은 2/5/2013 9:24:00 AM입니다.동적 파티션을 사용하는 테이블에서 하이브 쿼리를 최적화하는 방법

나는 날짜 & 시간 동적 파티션을 사용하고 내가 약 150 만 기록을 가지고

insert overwrite table partition(date, hour) 
{ 
select x,y,z, date , hour 
} 
from table 1. 

을 수행하고 완료하는 데 약 4 시간을 복용하고 있습니다. 이것이 정상입니까, 어떤 방법으로 최적화 할 수 있습니까?

답변

0

클러스터 크기를 늘리면 시간이 많이 걸립니다.

0

이것은 당신이 1 개 노드와 가상 컴퓨터에서 작업하는 경우를 제외하고 :) ..이 일부에서 기본적으로 true로 설정되어있는 이유는 확실하지 않다

set hive.optimize.sort.dynamic.partition=false; 

이 플래그를 설정해보십시오, 정상 아니다 배포판.

0

는 TEZ 엔진이 더 잘 실행 시간을 사용할 수 있습니다

  • 확인 여부,이 많은 시나리오가 있습니다.
  • 우리가 파일을 저장하는 방식을 변경할 수 있는지 여부, RC 형식이 도움이 될 수 있습니다.
  • hive.exec.max.dynamic.partitions & hive.exec.max.dynamic.partitions를 최적의 값으로 최적화합니다.
  • 클러스터를 늘리는 것도 좋습니다 (가능한 경우)
관련 문제