0
소스 테이블의 타임 스탬프를 기준으로 증분 데이터를로드하는 가장 좋은 방법을 찾고 있습니다. 데이터가 매일 업데이트되는 소스 테이블 (hbase)이 있습니다. 첫 번째 흐름에서는 전체 데이터를 테스트 테이블 (hbase)로 전송해야합니다. 다음 날, 새로 추가 된 레코드 만 원본 테이블에서 전송해야합니다. 이를 위해 타임 스탬프를 사용하여 전송해야하는 대상과 그렇지 않은 대상을 구별합니다. 그래서 전송하는 가장 좋은 방법입니다. PIG, MapReduce 또는 Spark를 사용해야합니까?hbase의 증분 데이터로드
복사 표를 사용하여 증분 데이터로드에 대해 읽었습니다. 하지만 나는 어떤 예도 찾을 수 없었다. copytable을 사용하여 점진적으로 로딩 할 수있는 예제를 제발 주시겠습니까? –
아이디어는 시작 시간과 종료 시간을 사용하는 것입니다. 1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name = tableCopy tableOriginal --starttime = 1 --endtime = 1465735288000 2. hbase org.apache.hadoop.hbase.mapreduce.CopyTable - -new.name = tableCopy tableOriginal --starttime = 1465735288000 --endtime = 1465821688000 그래서 끝난 곳을 계산해야합니다. – rrydziu
감사합니다. 아프다. –