2016-06-10 1 views
0

소스 테이블의 타임 스탬프를 기준으로 증분 데이터를로드하는 가장 좋은 방법을 찾고 있습니다. 데이터가 매일 업데이트되는 소스 테이블 (hbase)이 있습니다. 첫 번째 흐름에서는 전체 데이터를 테스트 테이블 (hbase)로 전송해야합니다. 다음 날, 새로 추가 된 레코드 만 원본 테이블에서 전송해야합니다. 이를 위해 타임 스탬프를 사용하여 전송해야하는 대상과 그렇지 않은 대상을 구별합니다. 그래서 전송하는 가장 좋은 방법입니다. PIG, MapReduce 또는 Spark를 사용해야합니까?hbase의 증분 데이터로드

답변

0

org.apache.hadoop.hbase.mapreduce.CopyTable과 같은 기존 수업을 사용하셨습니까? 증분 사본을 지원합니다.

코드를 작성할 필요가 없습니다.

+0

복사 표를 사용하여 증분 데이터로드에 대해 읽었습니다. 하지만 나는 어떤 예도 찾을 수 없었다. copytable을 사용하여 점진적으로 로딩 할 수있는 예제를 제발 주시겠습니까? –

+0

아이디어는 시작 시간과 종료 시간을 사용하는 것입니다. 1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name = tableCopy tableOriginal --starttime = 1 --endtime = 1465735288000 2. hbase org.apache.hadoop.hbase.mapreduce.CopyTable - -new.name = tableCopy tableOriginal --starttime = 1465735288000 --endtime = 1465821688000 그래서 끝난 곳을 계산해야합니다. – rrydziu

+0

감사합니다. 아프다. –