2014-04-18 5 views
0

내 응용 프로그램에는 4 개의 테이블이 있으며 각 테이블에는 1 백만 개가 넘는 데이터가 있습니다.
현재 자바 기반의보고 엔진이 모든 테이블을 조인하고 보고서에 표시 할 데이터를 얻습니다.HDFS에서 데이터를 점진적으로 업데이트/추가

이제 sqoop을 사용하여 Hadoop을 소개하고자합니다. 나는 hadoop 2.2와 sqop 1.9를 설치했다.

나는 작은 POC를 사용하여 hdfs에서 데이터를 가져 왔습니다. 문제는 그것이 새로운 데이터 파일을 생성 할 때마다입니다.

내 필요가 :

일에 한 번 실행하는 스케줄러가있을 것이고, 그것은 것입니다 :

  1. 는 Sqoop을을 사용하여 HDFS에있는 모든 네 개의 테이블 및로드에서 데이터를 선택합니다.
  2. PIG는 데이터 변환 및 결합을 수행하고 정규화 된 데이터를 구체적으로 준비합니다.
  3. Sqoop은 별도의이 포트 테이블에서이 데이터를 다시 내 보냅니다.

나는이 주위에 몇 가지 질문이 있습니다

  1. 내가 모든 Sqoop을 가져 오기 호출에 HDFS에 DB에서 모든 데이터를 가져해야합니까?
  2. 마스터 테이블에서 일부 데이터는 업데이트되고 일부 데이터는 새로운 것으로 표시되므로 HDFS에서로드하는 동안 데이터를 병합하면 어떻게 처리 할 수 ​​있습니까?
  3. 내보내기 할 때 전체 데이터를 다시보고 테이블로 내보내야합니다. 예, 그렇다면 어떻게해야합니까?

은 ... 당신이있는 경우

나에게 더 나은 솔루션을 제안하십시오 ...이 경우

답변

1

Sqoop을 지원 증분 및 델타 수입 저를 도와주세요. 자세한 내용은 Sqoop 문서 here을 확인하십시오.

관련 문제