0
null/NaN을 무시하여 데이터 프레임의 열 평균을 계산할 수있는 함수가 있습니까? R과 마찬가지로 na.rm = TRUE와 같은 옵션을 전달할 수 있습니다.스파크 데이터 프레임에 null이있는 열의 평균
NaN이있는 열에 avg()를 적용하면 NaN 만 표시됩니다.
null/NaN을 무시하여 데이터 프레임의 열 평균을 계산할 수있는 함수가 있습니까? R과 마찬가지로 na.rm = TRUE와 같은 옵션을 전달할 수 있습니다.스파크 데이터 프레임에 null이있는 열의 평균
NaN이있는 열에 avg()를 적용하면 NaN 만 표시됩니다.
는 다음과 같은 작업을 수행 할 수 있습니다
df.na.drop(Seq("c_name")).select(avg(col("c_name")))
이 스파크 2.1.0에서 나를 위해 작동하는 것 같다 :
In [16]: mydesc=[{'name':'Fela', 'age':46},
{'name':'Menelik','age':None},
{'name':'Zara','age':39}]
In [17]: mydf = sc.parallelize(mydesc).toDF()
In [18]: from pyspark.sql.functions import avg
In [20]: mydf.select(avg('age')).collect()[0][0]
Out[20]: 42.5
이 작동하지 않습니다. 초점을 무시함으로써 .../NaN " – zero323