내가 S3 스토리지 스파크에서 dataframe을 쓰기 위해 노력하고 있어요 내 클라우 데라에 pyspark2 (버전 2.0.0.cloudera1)를 사용하지만, 때문에 인증의 실패 :
pyspark.sql합니다. utils.IllegalArgumentException : 액세스 키 ID가 fs.s3n.awsAccessKeyId 및 fs.s3n.awsSecretAccessKey 속성이 각각 (각각)으로 설정되어 있어야합니다. '
내 pyspark 코드는 다음과 같습니다
utp.coalesce(1).write.format('com.databricks.spark.csv').save('s3n://my_bucket/tmr_xfers/test_output')
우리는, 즉 'aws_iam_role = ARN : AWS : 스피 :: 123456789012 : 역할/RoleName'S3에 액세스하기위한 역할을 사용 - 개인이 아닌 AccessKeyIDs
을내 csv가 개별 AccessKeyId 및 SecretAccessKey 대신 역할을 사용하여 S3에 기록되도록 Spark 코드를 변경해야합니까?