스파크 데이터 프레임에 대한 사용자 지정 집계 함수를 지정하는 방법이 있는지 궁금합니다. 내가 2 열 id
및 value
있는 테이블이 있다면 나는과 같이 각 value
에 대한리스트로 값을 id
을 GROUPBY 및 집계 싶습니다 :스파크 데이터 프레임에 대한 사용자 지정 집계
에서 :
john | tomato
john | carrot
bill | apple
john | banana
bill | taco
에 :
john | tomato, carrot, banana
bill | apple, taco
데이터 프레임에서 이것이 가능합니까? 나는 오크 파일로 데이터를 읽고 데이터 프레임으로로드되기 때문에 데이터 프레임에 대해 묻습니다. 나는 그것을 RDD로 변환하는 것이 비효율적이라고 생각한다.