Pyspark에서 임의의 고정 값을 사용하여 기존 데이터 프레임에 열을 추가합니다.

저는 Pyspark를 처음 사용하고 기존 데이터 프레임에 새 열을 추가하려고합니다. 새 항목에는 고정 값이 4 개만 있어야합니다 (예 : 1,2,3,4). 각 행의 값 중 하나를 무작위로 선택하고 싶습니다.Pyspark에서 임의의 고정 값을 사용하여 기존 데이터 프레임에 열을 추가합니다.

어떻게하면됩니까?

출처

2016-06-29 H.Z.

Pyspark 데이터 프레임은 변경할 수 없으므로 새로운 데이터 프레임을 반환해야합니다 (예 : 팬더 데이터 프레임에서 할 수있는 방식으로 할당 할 수 없음).

이

from pyspark.sql.functions import udf 
import numpy as np 

df = <original df> 

udf_randint = udf(np.random.randint(1, 4)) 
df_new = df.withColumn("random_num": udf_randint)

출처

2016-06-29 20:27:28 Jeff

이 하나 –

아를 작동하지 않습니다, 죄송합니다, 당신이 NumPy와 목록에'lit'를 호출 할 필요가 : 당신이 udf 사용하고 싶은 일을합니다. 그것은 당신 앞에서 불꽃없이 질문에 대답하려고 할 때 일어납니다. 나는 그것을 편집 할 것이다. – Jeff

마지막 인수 (크기)가 무엇인지 물어볼 수 있습니까? 나는 그 논쟁없이 노력했고 그것은 항상 무작위 적이 지 않고 항상 같은 가치를 제공합니다. 그것은 항상 3이었습니다 –

Pyspark에서 임의의 고정 값을 사용하여 기존 데이터 프레임에 열을 추가합니다.

답변

관련 문제