0
이 집계를 수행하려고 할 때 메모리가 부족합니다. 그것은 잘 동작하지만 데이터의 작은 하위 집합에서 매우 느립니다. 나는 pySpark에서 이걸 실행하고있어. 특정 그룹을 기반으로 한 컬럼의 평균을 취하는 다른 방법이 있습니까?Spark에서 집계를 수행하는 가장 좋은 방법
df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")
이것은 꽤 효과적입니다. <2.0.0에서는 "예전 스타일"스케줄링을 사용하여 조금을 얻을 수 있지만 그게 전부입니다. 특히 느린 경우 구성 문제가 있음을 알 수 있습니다. – zero323