아마존 S3에 저장된 데이터를 처리하기 위해 외부 테이블과 함께 하이브를 사용하고 있습니다.특정 날짜까지 하이브를 사용하여 파티션을 추가하는 방법은 무엇입니까?
DIR s3://test.com/2014-03-01/
DIR s3://test.com/2014-03-02/
DIR s3://test.com/2014-03-03/
DIR s3://test.com/2014-03-04/
DIR s3://test.com/2014-03-05/
s3://test.com/2014-03-05/ip-foo-request-2014-03-05_04-20_00-49.log
s3://test.com/2014-03-05/ip-foo-request-2014-03-05_06-26_19-56.log
s3://test.com/2014-03-05/ip-foo-request-2014-03-05_15-20_12-53.log
s3://test.com/2014-03-05/ip-foo-request-2014-03-05_22-54_27-19.log
어떻게 하이브를 사용하여 파티션 테이블을 만들기 위해 다음과 같이
내 데이터를 분할?
CREATE EXTERNAL TABLE test (
foo string,
time string,
bar string
) PARTITIONED BY (? string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION 's3://test.com/';
누군가가이 질문에 답변 할 수 있습니까? 감사!
@ Shanklin Thanks! – brisk
위 쿼리는 구문 오류없이 작동합니다. 그러나 어떤 데이터도로드하지 않습니다. 출력은 0 바이트입니다. 나를 도와 주실 수있으세요? – brisk
ALTER TABLE px_logs ADD PARTITION (ds = date_sub ('$ {DAY}', 1)); 현재 날짜 가져 오기 위해 파이썬 코드를 사용하려고하면 오류가 발생했습니다. FAILED : 구문 분석 오류 : 줄 3시 38 분에서 'date_sub'입력을 인식 할 수 없습니다. – brisk