2017-09-17 4 views

답변

2

는 다음과 같은 작업을 수행 할 수 있습니다

df.na.drop(Seq("c_name")).select(avg(col("c_name"))) 
-1

이 스파크 2.1.0에서 나를 위해 작동하는 것 같다 :

In [16]: mydesc=[{'name':'Fela', 'age':46}, 
       {'name':'Menelik','age':None}, 
       {'name':'Zara','age':39}] 
In [17]: mydf = sc.parallelize(mydesc).toDF() 
In [18]: from pyspark.sql.functions import avg 
In [20]: mydf.select(avg('age')).collect()[0][0] 
Out[20]: 42.5 
+0

이 작동하지 않습니다. 초점을 무시함으로써 .../NaN " – zero323

관련 문제