2014-11-27 1 views
0

현재 시스템이 이런 방식으로 설계되었습니다.현재 건축물에서 마루판 사용 방법은 무엇입니까?

로그 파서는 5 분마다 원시 로그를 TSV 형식으로 구문 분석하고 HDFS로 출력합니다. HDFS에서 TSV 파일의 하이브 테이블을 만들었습니다.

일부 벤치 마크에서 Parquet이 공간 사용량의 30-40 %를 절약 할 수 있음을 발견했습니다. 나는 또한 Hive 0.13을 시작하는 마루 파일에서 하이브 테이블을 만들 수 있음을 발견했다. TSV 파일을 파킹 파일로 변환 할 수 있는지 알고 싶습니다.

모든 의견을 환영합니다.

답변

0

예, 하이브에서는 한 테이블에서 다른 테이블로 삽입하여 한 포맷에서 다른 포맷으로 쉽게 변환 할 수 있습니다. 당신은 TSV 테이블이있는 경우 예를 들어

과 같이 정의 :

CREATE TABLE data_tsv 
(col1 STRING, col2 INT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'; 

그리고 마루 테이블로 정의 :

INSERT OVERWRITE TABLE data_parquet SELECT * FROM data_tsv; 
:

CREATE TABLE data_parquet 
(col1 STRING, col2 INT) 
STORED AS PARQUET; 

당신은으로 데이터를 변환 할 수 있습니다

또는 Parquet 테이블 DDL을 건너 뛸 수 있습니다.

CREATE TABLE data_parquet STORED AS PARQUET AS SELECT * FROM data_tsv; 
관련 문제