많은 우수 사례에서는 데이터를 HDFS의 압축 형식으로 저장해야한다고 제안합니다.하이브의 압축으로 인해 쿼리 성능이 향상됩니까?
압축 텍스트 파일 (각각 약 250MB의 청크 된 gzip 파일)과 압축되지 않은 텍스트 파일로 구성된 테이블에서 하이브 쿼리를 실행하는 경우 명확한 성능 차이가 있습니다.
누군가 제발 무슨 일이 일어나고 있는지 설명해주세요.
내 이해에 따라 쿼리 입력이 매퍼 작업에 할당되는 동안 압축 해제 단계가 있고 쿼리가 있습니다. 이 경우 압축 해제의 오버 헤드가 발생하므로 압축되지 않은 텍스트 파일보다 어떻게 더 나은 성능을 제공 할 수 있습니까?
안녕하세요! 귀하의 답변을 주셔서 감사합니다, 그것은 몇 가지 것들을 설명합니다. 클러스터에 SAN 저장소가 연결되어 있습니다. 성능 병목 현상이 여전히 발생합니까? –
저는 SAN에 대해 100 % 지식이 없지만 SAN이 다중 맵퍼와 다중 감속기 사이에서 거대한 데이터 흐름을 개선 할 수 없다면 병목 현상이 발생할 것입니다. – abhiieor