Apache Spark에서 Python Dataframe API로 중간 값을 찾는 방법은 무엇입니까?

Pyspark API는 중앙값을 제외한 많은 집계 함수를 제공합니다. 스파크 2는 approxQuantile과 함께 제공되는데 대략 Quantile을 제공하지만 정확한 중간 값은 계산하는 데 매우 비쌉니다. Spark Dataframe에서 값의 열에 대한 중앙값을 계산하는 더 많은 Pyspark 방법이 있습니까?Apache Spark에서 Python Dataframe API로 중간 값을 찾는 방법은 무엇입니까?

출처

2016-08-03 gench

다음은 Python (Spark 1.6 +)의 Dataframe API를 사용한 구현 예입니다.

import pyspark.sql.functions as F 
import numpy as np 
from pyspark.sql.types import FloatType

의 우리가 "급여"스파크 dataframe 등의 고객을위한 월급이 가정 해 봅시다 :

월 | 고객 ID | 급여

우리는 모든 개월

을 통해 고객 당 평균 급여를 찾고 싶은

1 단계 : 급여에 집계 : 중간

def find_median(values_list): 
    try: 
     median = np.median(values_list) #get the median of values in a list in each row 
     return round(float(median),2) 
    except Exception: 
     return None #if there is anything wrong with the given values 

median_finder = F.udf(find_median,FloatType())

2 단계를 계산하는 사용자 정의 함수를 작성

salaries_list = salaries.groupBy("customer_id").agg(F.collect_list("salary").alias("salaries"))

3 단계 : 각 행의 급여 목록에 그들을 수집하여 열 급여 COL에 median_finder의 UDF를 호출 새로운 열로 중간 값을 추가합니다.

salaries_list = salaries_list.withColumn("median",median_finder("salaries"))

출처

2016-08-03 12:19:01 gench

np.nanmedian (values_list)을 사용하면 NaN이 무시되고 때로는 더 나은 선택입니다. –

Apache Spark에서 Python Dataframe API로 중간 값을 찾는 방법은 무엇입니까?

답변

관련 문제