스파크 DataFrame을 응집 해제 (deaggregation) DF 스키마와 함께 제공됩니다 :스파크
나는 "deaggdegated"열을 생산하기 위해 필요id, agg_values
432, 11 3.14 45 4.322
984, 1 9.22 45 22.17
:
id, item_id, value
432, 11, 3.14
432, 45, 4.322
984, 1, 98.22
984, 45, 222.1
구문 분석 기능 :
을private def parse_agg_scores(line: String): List[(String, String)] = {
val items: Array[String] = line.split(' ')
val ids = Iterator.from(0, 2).takeWhile(_ < items.size).map(items(_))
val scores = Iterator.from(1, 2).takeWhile(_ < items.size).map(items(_))
ids.zip(scores).toList
}
flatMap을 시도했지만 작동하지 않습니다.
val res = df.flatMap{ row =>
val line = row.getString(1)
parse_agg_scores(line)
}
단지 말을하지 마십시오 무엇 그것은 작동하지 않습니다. 컴파일 타임 오류, 런타임 오류, 예기치 않은 결과 (그렇다면 무엇을 얻었으며 무엇을 기대 했습니까?) –