PySpark count common occurences

마켓 바스켓 분석을하고, 규칙을 추출한 후, ... 또한 타뷸 (Tablet)에서 시각화하기 위해 항목의 일반적인 발생을 계산하려고합니다. 아래에서 각 ID/바구니 멤버를 찾으십시오. 당신의 도움이 매우 감사PySpark count common occurences

res = sqlContext.createDataFrame([("Butter", "Butter", 0), 
("Butter", "Toast", 1), 
("Butter", "Ham", 1), 
("Butter", "Egg", 0), 
("Toast", "Toast", 0), 
("Toast", "Ham", 2), 
("Toast", "Egg", 1), 
("Ham", "Ham", 0), 
("Ham", "Egg", 0), 
("Egg", "Egg", 0),], 
["VAL_1","VAL_2", "COUNT"]) 

res.show() 

+------+------+-----+ 
| VAL_1| VAL_2|COUNT| 
+------+------+-----+ 
|Butter|Butter| 0| 
|Butter| Toast| 1| 
|Butter| Ham| 1| 
|Butter| Egg| 0| 
| Toast| Toast| 0| 
| Toast| Ham| 2| 
| Toast| Egg| 1| 
| Ham| Ham| 0| 
| Ham| Egg| 0| 
| Egg| Egg| 0| 
+------+------+-----+

df = sqlContext.createDataFrame([("ID_1", "Butter"), 
("ID_1", "Toast"), 
("ID_1","Ham"), 
("ID_2", "Ham"), 
("ID_2", "Toast"), 
("ID_2","Egg"),], 
["ID","VAL"]) 

df.show() 

+----+------+ 
| ID| VAL| 
+----+------+ 
|ID_1|Butter| 
|ID_1| Toast| 
|ID_1| Ham| 
|ID_2| Ham| 
|ID_2| Toast| 
|ID_2| Egg| 
+----+------+

이

내가 달성하고자하는 결과입니다! 감사!

출처

2016-12-05 CKre

아래에보십시오, 당신은 또한 계산 된 열

df.groupBy(['ID','VAL']).count().show()

에게 이름을 withColumnRenamed을 사용할 수 있습니다

출처

2016-12-05 14:14:36 David

PySpark count common occurences

답변

관련 문제