DataFrameWriter를 사용하여 S3에 쓰고있는 데이터 세트가 있습니다. Parquet을 사용하고 있으며 256 개의 고유 한 값을 가진 열에 partitionBy 호출을 수행하고 있습니다. 잘 작동하지만 데이터 세트를 작성하고 다른 작업을 읽는 데 시간이 필요합니다. 디버깅에서 필자는호출이 256 개의 파티션을 지정 했음에도 불구하고 작성자가 접미어 당 하나씩 256 개의 파일 만 출력한다는 것을 알아 챘습니다. 각 partitionBy 값에 대한 파일 출력 수를 늘릴 수있는 방법이 있습니까?Spark에서 DataFrameWriter를 사용하여 출력 파일 수를 변경하십시오.
myDS = myDS.repartition(256, functions.col("suffix"));
myDS.write().partitionBy("suffix").parquet(String.format(this.outputPath, "parquet", this.date));