2TB 테이블을 RDS 인스턴스에서 S3 또는 하이브로 내보내는 방법?

RDS 인스턴스 (MySQL 5.7)에서 S3 (csv 파일) 또는 하이브로 전체 테이블을 마이그레이션하려고합니다.2TB 테이블을 RDS 인스턴스에서 S3 또는 하이브로 내보내는 방법?

표에는 총 2TB의 데이터가 있습니다. 그리고 zip 파일을 저장하는 BLOB 컬럼 (보통 100KB이지만 5MB까지 도달 할 수 있습니다)이 있습니다.

Spark, Sqoop 및 AWS DMS로 몇 가지 테스트를했지만 모두 문제가있었습니다. 이러한 도구를 사용하여 RDS에서 데이터를 내보내는 데 경험이 없으므로 도움을 주시면 감사하겠습니다.

이 작업에 가장 권장되는 것은 어느 것입니까? 그리고 어떤 전략이 더 효율적이라고 생각하십니까?

AWS 파이프 라인을 사용하여 RDS 데이터를 S3로 복사 할 수 있습니다. 바로 여기에 example이 있습니다.

일단 csv 형식으로 S3에 덤프를 가져온 경우 스파크를 사용하여 데이터를 읽고 하이브 테이블로 등록하기가 쉽습니다.

val df = spark.read.csv("s3://...") 
df.saveAsTable("mytable") // saves as hive

2017-10-02 14:01:21

답변