현재 매우 큰 MySQL 테이블의 내용을 Spark SQL을 통해 쪽매 파일로 대량 마이그레이션하려고합니다. 그러나 그렇게 할 때, 운전자의 메모리 한도를 더 높게 설정하더라도 (나는 로컬 모드에서 스파크를 사용하고있다.) 나는 빨리 메모리가 부족하다. 예제 코드 : 스파크가 매우 잘 작동하지 않을 메모리에 전체 테이블의 내용을 읽으려고처럼Spark SQL을 통한 대량 데이터 마이그레이션
Dataset<Row> ds = spark.read()
.format("jdbc")
.option("url", url)
.option("driver", "com.mysql.jdbc.Driver")
.option("dbtable", "bigdatatable")
.option("user", "root")
.option("password", "foobar")
.load();
ds.write().mode(SaveMode.Append).parquet("data/bigdatatable");
보인다. Spark SQL을 통해 대량 데이터 마이그레이션을 수행하는 가장 좋은 방법은 무엇입니까?
스파크가 잘못 구성 되었기 때문에 OOM을 얻지 못하면 드라이버에서 스트리밍을 활성화해야합니다. http://stackoverflow.com/a/2448019/2439539 – r90t