2016-06-29 3 views

답변

1

Pyspark 데이터 프레임은 변경할 수 없으므로 새로운 데이터 프레임을 반환해야합니다 (예 : 팬더 데이터 프레임에서 할 수있는 방식으로 할당 할 수 없음).

from pyspark.sql.functions import udf 
import numpy as np 

df = <original df> 

udf_randint = udf(np.random.randint(1, 4)) 
df_new = df.withColumn("random_num": udf_randint) 
+0

이 하나 –

+0

아를 작동하지 않습니다, 죄송합니다, 당신이 NumPy와 목록에'lit'를 호출 할 필요가 : 당신이 udf 사용하고 싶은 일을합니다. 그것은 당신 앞에서 불꽃없이 질문에 대답하려고 할 때 일어납니다. 나는 그것을 편집 할 것이다. – Jeff

+0

마지막 인수 (크기)가 무엇인지 물어볼 수 있습니까? 나는 그 논쟁없이 노력했고 그것은 항상 무작위 적이 지 않고 항상 같은 가치를 제공합니다. 그것은 항상 3이었습니다 –

관련 문제