1
나는 다음을 수행하여 RDD[(String, (String, String, Map[String, Int]))]
로 변환 dataFrame = [CUSTOMER_ID ,itemType, eventTimeStamp, valueType]
이 : 내 입력이 거대한 내 이후Scala/SPARK에서 Dataframe을 RDD로 변환하는 효율적인 방법은 무엇입니까?
val tempFile = result.map({
r => {
val customerId = r.getAs[String]("CUSTOMER_ID")
val itemType = r.getAs[String]("itemType")
val eventTimeStamp = r.getAs[String]("eventTimeStamp")
val valueType = r.getAs[Map[String, Int]]("valueType")
(customerId, (itemType, eventTimeStamp, valueType))
}
})
이 많은 시간이 걸립니다. df
을 RDD[(String, (String, String, Map[String, Int]))]
으로 변환하는 효율적인 방법이 있습니까?
입력 한도는 얼마나됩니까? –
DataFrame을 RDD로 변환하는 데 얼마나 걸리나요? –
DataFrame에서 다른 수의 파티션을 설정하려고 시도 했습니까? 어떤 차이가 있습니까? –