0
저는 Pyspark를 처음 사용하고 기존 데이터 프레임에 새 열을 추가하려고합니다. 새 항목에는 고정 값이 4 개만 있어야합니다 (예 : 1,2,3,4
). 각 행의 값 중 하나를 무작위로 선택하고 싶습니다.Pyspark에서 임의의 고정 값을 사용하여 기존 데이터 프레임에 열을 추가합니다.
어떻게하면됩니까?
저는 Pyspark를 처음 사용하고 기존 데이터 프레임에 새 열을 추가하려고합니다. 새 항목에는 고정 값이 4 개만 있어야합니다 (예 : 1,2,3,4
). 각 행의 값 중 하나를 무작위로 선택하고 싶습니다.Pyspark에서 임의의 고정 값을 사용하여 기존 데이터 프레임에 열을 추가합니다.
어떻게하면됩니까?
Pyspark 데이터 프레임은 변경할 수 없으므로 새로운 데이터 프레임을 반환해야합니다 (예 : 팬더 데이터 프레임에서 할 수있는 방식으로 할당 할 수 없음).
이from pyspark.sql.functions import udf
import numpy as np
df = <original df>
udf_randint = udf(np.random.randint(1, 4))
df_new = df.withColumn("random_num": udf_randint)
이 하나 –
아를 작동하지 않습니다, 죄송합니다, 당신이 NumPy와 목록에'lit'를 호출 할 필요가 : 당신이
udf
사용하고 싶은 일을합니다. 그것은 당신 앞에서 불꽃없이 질문에 대답하려고 할 때 일어납니다. 나는 그것을 편집 할 것이다. – Jeff마지막 인수 (크기)가 무엇인지 물어볼 수 있습니까? 나는 그 논쟁없이 노력했고 그것은 항상 무작위 적이 지 않고 항상 같은 가치를 제공합니다. 그것은 항상 3이었습니다 –