0
내 응용 프로그램에는 4 개의 테이블이 있으며 각 테이블에는 1 백만 개가 넘는 데이터가 있습니다.
현재 자바 기반의보고 엔진이 모든 테이블을 조인하고 보고서에 표시 할 데이터를 얻습니다.HDFS에서 데이터를 점진적으로 업데이트/추가
이제 sqoop을 사용하여 Hadoop을 소개하고자합니다. 나는 hadoop 2.2와 sqop 1.9를 설치했다.
나는 작은 POC를 사용하여 hdfs에서 데이터를 가져 왔습니다. 문제는 그것이 새로운 데이터 파일을 생성 할 때마다입니다.
내 필요가 :
는일에 한 번 실행하는 스케줄러가있을 것이고, 그것은 것입니다 :
- 는 Sqoop을을 사용하여 HDFS에있는 모든 네 개의 테이블 및로드에서 데이터를 선택합니다.
- PIG는 데이터 변환 및 결합을 수행하고 정규화 된 데이터를 구체적으로 준비합니다.
- Sqoop은 별도의이 포트 테이블에서이 데이터를 다시 내 보냅니다.
나는이 주위에 몇 가지 질문이 있습니다
- 내가 모든 Sqoop을 가져 오기 호출에 HDFS에 DB에서 모든 데이터를 가져해야합니까?
- 마스터 테이블에서 일부 데이터는 업데이트되고 일부 데이터는 새로운 것으로 표시되므로 HDFS에서로드하는 동안 데이터를 병합하면 어떻게 처리 할 수 있습니까?
- 내보내기 할 때 전체 데이터를 다시보고 테이블로 내보내야합니다. 예, 그렇다면 어떻게해야합니까?
은 ... 당신이있는 경우
나에게 더 나은 솔루션을 제안하십시오 ...이 경우