2017-05-15 2 views
1

건축/perf 질문이 여기에 있습니다.전제 SQL 서버 데이터베이스 데이터를 Parquet 형식으로 Azure에 복사

전 ~ 10TB의 총 200 개 테이블을 가진 전제 SQL 서버 데이터베이스가 있습니다. HDInsight Spark를 통한 데이터 과학 분석을 위해이 데이터를 Parquet in Parquet 형식으로 제공해야합니다.

이 데이터를 Parquet 형식의 Azure (Blob storage 또는 Data Lake)로 복사/변환하는 최적의 방법은 무엇입니까?

~ 200 테이블 이후로 작업의 관리 용이성 측면 때문에 sqlcmd를 통해 파일 공유에 로컬로 데이터를 추출하고 csv.bz2로 압축 한 다음 데이터 팩토리를 사용하여 파일 공유를 복사합니다 ('PreserveHierarchy'포함). Azure. 마지막으로 pyspark를 실행하여 데이터를로드 한 다음 .parquet로 저장합니다.

테이블 스키마가 주어지면 SQL 데이터베이스에서 T-SQL을 통해 SQL 데이터 추출 및 Python 스크립트 을 자동 생성 할 수 있습니다.

더 빠르고 더 관리하기 쉬운 방법이 있습니까?

답변

-1

ADF는 일회성 및 일정 기반 데이터 이동과 완벽하게 일치합니다.

ADF의 복사 마법사를 사용해보십시오. 이 기능을 사용하면 몇 번의 클릭만으로 Parquet 형식의 Blob/ADLS로 직접 SQL을 바로 이동할 수 있습니다. 내가 ADF에서 복사 마법사를 사용하는 경우

Copy Activity Overview

+0

은 내가 ~ 200 개 활동/데이터 세트를 합리적인없는 추출 테이블 당 하나를 관리 할 수 ​​있습니다. 게다가 ADF의 싱크대에있는 쪽모이 세공 형식은 내 발견에 근거하여 전혀 압축하지 못합니다. – YuGagarin

관련 문제