HDFS 싱크에 5GB의 데이터가 있습니다. 하이브에 대한 쿼리를 실행하면 완료하는 데 10-15 분 이상 걸립니다. 실행했을 때 얻을 수있는 행 수아파치 하이브 성능 향상
select count(*) from table_name
은 3,880,900입니다. 내 VM은 4.5GB의 mem를 가지고 있으며 MBP 2012에서 실행됩니다. 테이블에서 색인을 생성하면 성능이 향상되는지 알고 싶습니다. 하이브에게 많은 양의 데이터 나 행만 사용하여 결과를 더 빨리 얻도록 지시하는 다른 방법이 있습니까? 결과를 엿볼 수 있도록 데이터의 하위 집합에 대해 쿼리를 실행하더라도 괜찮습니다.