HDFS에서 데이터를 점진적으로 업데이트/추가

내 응용 프로그램에는 4 개의 테이블이 있으며 각 테이블에는 1 백만 개가 넘는 데이터가 있습니다.
현재 자바 기반의보고 엔진이 모든 테이블을 조인하고 보고서에 표시 할 데이터를 얻습니다.HDFS에서 데이터를 점진적으로 업데이트/추가

이제 sqoop을 사용하여 Hadoop을 소개하고자합니다. 나는 hadoop 2.2와 sqop 1.9를 설치했다.

나는 작은 POC를 사용하여 hdfs에서 데이터를 가져 왔습니다. 문제는 그것이 새로운 데이터 파일을 생성 할 때마다입니다.

내 필요가 :

는

일에 한 번 실행하는 스케줄러가있을 것이고, 그것은 것입니다 :

나는이 주위에 몇 가지 질문이 있습니다

내가 모든 Sqoop을 가져 오기 호출에 HDFS에 DB에서 모든 데이터를 가져해야합니까?
마스터 테이블에서 일부 데이터는 업데이트되고 일부 데이터는 새로운 것으로 표시되므로 HDFS에서로드하는 동안 데이터를 병합하면 어떻게 처리 할 수 있습니까?
내보내기 할 때 전체 데이터를 다시보고 테이블로 내보내야합니다. 예, 그렇다면 어떻게해야합니까?

은 ... 당신이있는 경우

나에게 더 나은 솔루션을 제안하십시오 ...이 경우

Sqoop을 지원 증분 및 델타 수입 저를 도와주세요. 자세한 내용은 Sqoop 문서 here을 확인하십시오.

2014-04-19 18:14:01

답변