2016-08-17 3 views
1

방금 ​​Sqoop Hands-on으로 시작했습니다. 질문이 있는데, 데이터베이스에 300 개의 테이블이 있고 그 테이블에 증분로드를 수행하려고한다고 가정 해 보겠습니다. 추가 모드 나 마지막으로 수정 한 상태로 점진적 가져 오기를 수행 할 수 있음을 알고 있습니다.하나의 sqoop 작업을 여러 테이블에 동시에 사용할 수 있습니까?

그러나 작업이 테이블 이름, CDC 열 및 마지막 값/업데이트 된 값만 다를 경우 300 개의 작업을 만들어야합니까?

누가 동일한 작업을 사용하고 루프에서 텍스트 파일에서 읽을 수 있고 모든 테이블에 대해 동일한 작업을 병렬로 실행할 수있는 매개 변수로이 작업을 전달하려고 했습니까?

업계 표준 및 권장 사항은 무엇입니까?

또한 CDC를 수행하고 나중에 테이블을 병합하는 대신에 매우 작은 hadoop 테이블을 자르고 다시로드하는 방법이 있습니까?

답변

0

가져 오기 - 모든 테이블 "데이터베이스에서 HDFS로 테이블 가져 오기" 그러나 각 테이블의 CDC 열을 변경하는 방법은 제공하지 않습니다. 도 참조하십시오. sqoop import multiple tables

잘라내 기는 없지만 다음을 통해 동일하게 수행 할 수 있습니다. --delete-target-dir "가져 오기 대상 디렉토리가 있으면 삭제하십시오"

관련 문제