2017-12-15 2 views
-1

4 개의 열이있는 pyspark 데이터 프레임이 있습니다.pyspark 그룹 by sum

ID/수/값/X

내가 열 ID, 번호를 GROUPBY 다음 ID와 수에 따라 값의 합으로 새 열을 추가 할

. 나는 아무것도하지 않고 colunms x을 유지하고 싶다. ID/수/값/X/sum_of_value)

사람이 도움을 줄 수 있습니까 : 나는 5 열 데이터 프레임을 원하는 끝에

df= df.select("id","number","value","x") 
     .groupBy('id', 'number').withColumn("sum_of_value",df.value.sum()) 

?

+1

(코드 포맷 친절하고, 다음에) 몇 가지 예제 데이터를 제공하십시오 – desertnaut

답변

-2

처음에는 DataFrame df에 3 개의 열이 있다고 가정 해 보겠습니다.

df1 = df.groupBy("id","number").count() 

이제 df1에는 id, number 및 count의 2 개 열이 포함됩니다.

이제 "id"와 "number"열을 기반으로 df1과 df에 가입하고 선택할 열을 선택하십시오.

희망이 있습니다.

감사합니다,

Neeraj

+0

합계 값 :-) 포함되지 – Quetzalcoatl