건축/perf 질문이 여기에 있습니다.전제 SQL 서버 데이터베이스 데이터를 Parquet 형식으로 Azure에 복사
전 ~ 10TB의 총 200 개 테이블을 가진 전제 SQL 서버 데이터베이스가 있습니다. HDInsight Spark를 통한 데이터 과학 분석을 위해이 데이터를 Parquet in Parquet 형식으로 제공해야합니다.
이 데이터를 Parquet 형식의 Azure (Blob storage 또는 Data Lake)로 복사/변환하는 최적의 방법은 무엇입니까?
~ 200 테이블 이후로 작업의 관리 용이성 측면 때문에 sqlcmd를 통해 파일 공유에 로컬로 데이터를 추출하고 csv.bz2로 압축 한 다음 데이터 팩토리를 사용하여 파일 공유를 복사합니다 ('PreserveHierarchy'포함). Azure. 마지막으로 pyspark를 실행하여 데이터를로드 한 다음 .parquet로 저장합니다.
테이블 스키마가 주어지면 SQL 데이터베이스에서 T-SQL을 통해 SQL 데이터 추출 및 Python 스크립트 을 자동 생성 할 수 있습니다.
더 빠르고 더 관리하기 쉬운 방법이 있습니까?
은 내가 ~ 200 개 활동/데이터 세트를 합리적인없는 추출 테이블 당 하나를 관리 할 수 있습니다. 게다가 ADF의 싱크대에있는 쪽모이 세공 형식은 내 발견에 근거하여 전혀 압축하지 못합니다. – YuGagarin