2014-11-19 2 views
0

첫 번째 행에서 파일 이름 등의 메타 정보를 포함 (day_id 문자열, FILE_TYPE 문자열) 에 의해 구획하이브 테이블 내가 GZIP 파일에 하이브 가리키는 외부 테이블을 만든

create external table IF NOT EXISTS raw_CN (
column1      string, 
column2      string, 
column3   string, 
column4  string, 
column5   string, 
column6   string, 
column7   string, 
column8   string, 
column9      string, 
column10  string 

) 행 형식으로 구분 된 필드는 '|'로 끝납니다. TEXTFILE로 저장 됨.

추가 된 파티션 :

Alter table raw_CN add partition (day_id = '20140815' , file_type = 'Daily') location '/mapr/mapr.cluster/CN/20140501/Daily'; 

위의 위치

나는 테이블을 조회 할 때, 첫 번째 행은 또한 좀 파일 레벨 정보를 제공에 GZIP 파일을 배치 (어떤 헤더가 없습니다 파일). 내가 첫 번째 행에서이 문제를 해결하려면 어떻게해야 (행의 나머지는 괜찮) :

사용하는 하이브의 버전에 따라 달라집니다
Vendor1_617_CN_Daily.201408150000664000202600020260243475554512373676764017202 0ustar fworksfworks4F06C1A123456|82910|26|ESPN2|ESPN2|2014/08/15 01:09:42|2014/08/15  01:10:13|233|53066|Jefferson-Walworth (Jefferson), WI 
123456|82910|8|WMLW|WMLW|2014/08/15 03:16:53||233|53066|Jefferson-Walworth (Jefferson), WI 
123456|82910|3|WITI|WITI|2014/08/15 14:34:13|2014/08/15 14:35:20|233|53066|Jefferson-Walworth (Jefferson), WI 
123456|82910|43|HGTV|Home & Garden Television (East)|2014/08/15 14:35:20|2014/08/15 14:37:00|233|53066|Jefferson-Walworth (Jefferson), WI 
+0

안녕하세요! 문제를 해결 했니? – dbustosp

답변

1

.

위 하이브 버전 13의 경우 :

테이블을 만드는 동안 사용할 수있는 테이블 속성 tblproperties ("skip.header.line.count"="1") 있습니다. 그래서 그것은 라인 수를 건너 뜁니다.

는 하이브 버전 12의 경우와 아래 :

수동 또는 일부 쉘/파이썬 스크립트를 사용하여 라인/헤더를 제거해야합니다.

희망이 있습니다 ... !!!