2016-08-04 2 views
1

쪽모 세공 파일 저장 장치를 사용할 때 하이브 파티션을 만들면 어떤 이점이 있습니까? 마루 (parquet)는 모든 열이 색인별로 순차적으로 저장되는 열 청크에 데이터를 저장하는 원주 형 저장 파일 형식입니다. 술어를 기반으로 열을 선택 쿼리 할 때 선택 열 인덱스는 술어를 기반으로 필요한 범위로 점프하고 값을 인쇄합니다. 파티셔닝이 어떻게 도움이 될까요? 행 지향형 하이브 테이블에서는 지정된 필수 범위의 데이터 만 히트 할 것이기 때문에 파티셔닝이 도움이됩니다. 그러나이 방법은 마루 저장에 도움이 될 것입니다.쪽모 세공 파일 저장 장치를 사용할 때 하이브 파티션을 만들 때의 이점

답변

0

파티션되지 않은 테이블에서 하이브는 테이블의 데이터 디렉토리에있는 모든 파일을 읽은 다음 필터를 적용해야합니다. 대형 테이블의 경우 속도가 느리고 비용이 많이 듭니다. 파티션 테이블에서 파티션 열을 기반으로 하위 디렉터리를 만듭니다. 실행로드를 가로로 분산하므로 단일 레코드에 대해 전체 테이블 열을 검색 할 필요가 없습니다. 쪽매 파일 형식은 압축률은 높지만 성능은 좋지 않습니다. 마루가있는 파티션은 parquet 테이블에서 필터 쿼리를 실행했을 때 query.eg.when의 실행 시간을 줄여 주는데, 마루 포맷의 파티션은 14.21 초가 걸리는 반면 29.657 초 걸렸습니다. 큰 테이블이 있으면 확실히 쿼리 성능이 향상됩니다 .

관련 문제