2016-09-22 4 views

답변

1

시퀀스 파일

시퀀스 파일 데이터를 저장한다. CSV와 마찬가지로 시퀀스 파일은 메타 데이터를 데이터와 함께 저장하지 않으므로 스키마 진화 옵션 만 새로운 필드를 추가합니다. 그러나 CSV와 달리 시퀀스 파일은 블록 압축을 지원합니다. 시퀀스 파일을 읽는 작업이 복잡하기 때문에 일련의 MapReduce 작업에서 사용되는 중간 데이터 저장소와 같은 "비행 중"데이터에만 사용됩니다.

마루 파일

마루 파일은 하둡 만든 더그 커팅의 Trevni 프로젝트에서 유래 또 다른 원주 파일 형식입니다. RC 및 ORC와 마찬가지로 Parquet은 압축 및 쿼리 성능 이점을 누리고 비 컬럼 형식 파일 형식보다 일반적으로 작성 속도가 느립니다. 그러나, RC 및 ORC 파일과는 달리, Parquet serdes는 제한된 스키마 진화를 지원합니다. 마루에서 구조의 끝에 새로운 열을 추가 할 수 있습니다. 현재 Hive와 Impala는 새로 추가 된 열을 쿼리 할 수 ​​있지만 Hadoop Pig와 같은 생태계의 다른 도구는 어려움에 직면 할 수 있습니다. 마루는 Cloudera에 의해 지원되고 Cloudera Impala를 위해 낙관된다. Hadoop 생태계의 나머지 부분에 대해 원주민 파켓 지원이 빠르게 추가되고 있습니다.

하이브 (Hive)를 사용한 파킹 파일 지원 중 하나 참고 ... 파케어 열 이름이 소문자 인 것은 매우 중요합니다. Parquet 파일에 대소 문자가 혼합 된 열 이름이 포함되어 있으면 Hive에서 열을 읽을 수 없으며 열에 대해 null 값이있는 쿼리를 반환하고 오류를 기록하지 않습니다. 하이브와 달리 Impala는 대소 문자가 혼합 된 열 이름을 처리합니다. 당신이 만날 때 정말로 당황스러운 문제

관련 문제