2012-10-29 2 views
0

많은 양의 데이터 (거의 절반의 페타 바이트)에서 하이브 쿼리를 실행하려고하는데 이러한 쿼리 실행 맵은 내부적으로 줄어 듭니다. 데이터 집합을 생성하는 데 오랜 시간이 걸립니다 (완료까지지도 축소). 하이브와 Hadoop에 대한 최적화 메커니즘은이 쿼리를 더 빠르게 만드는 데 사용할 수있는 것입니다. 한 가지 더 중요한 질문은 맵 축소 또는 입/출력에 사용할 수있는 디스크의 양입니다. tmp 디렉토리가 더 빠른지도 축소를 위해 중요합니까?하이브 쿼리 생성 시간이 데이터 집합 생성에 오래 걸림.

+0

더 빨리 만들려고 시도한 것은 무엇입니까? –

답변

0

할 수있는 일은 많지 않지만 일반적으로 하이브로 할 수있는 일을 몇 가지 방향으로 제시 할 수 있습니다.
셔플이 덜 발생하는 SQL을 선택해야합니다. 예를 들어 가능한 경우지도 측면 조인을 시도 할 수 있습니다. 지도 전용 쿼리로 연결되는 방식으로 일부 작업을 수행 할 수도 있습니다.
또 다른 방법은 여러 가지 감속기를 조정하는 것입니다. 때로는 하이브가 필요로하는 감속기를 훨씬 적게 정의하므로 수동으로 클러스터를보다 효율적으로 활용하도록 설정할 수 있습니다.
변환을 수행하기 위해 실행할 쿼리 수가 많은 경우 - HDFS에서이 임시 데이터에 대한 낮은 복제 계수
우리가하는 일에 대한 정보가 있으면 도움을 더 제공 할 수 있습니다.

관련 문제