0
마켓 바스켓 분석을하고, 규칙을 추출한 후, ... 또한 타뷸 (Tablet)에서 시각화하기 위해 항목의 일반적인 발생을 계산하려고합니다. 아래에서 각 ID/바구니 멤버를 찾으십시오. 당신의 도움이 매우 감사PySpark count common occurences
res = sqlContext.createDataFrame([("Butter", "Butter", 0),
("Butter", "Toast", 1),
("Butter", "Ham", 1),
("Butter", "Egg", 0),
("Toast", "Toast", 0),
("Toast", "Ham", 2),
("Toast", "Egg", 1),
("Ham", "Ham", 0),
("Ham", "Egg", 0),
("Egg", "Egg", 0),],
["VAL_1","VAL_2", "COUNT"])
res.show()
+------+------+-----+
| VAL_1| VAL_2|COUNT|
+------+------+-----+
|Butter|Butter| 0|
|Butter| Toast| 1|
|Butter| Ham| 1|
|Butter| Egg| 0|
| Toast| Toast| 0|
| Toast| Ham| 2|
| Toast| Egg| 1|
| Ham| Ham| 0|
| Ham| Egg| 0|
| Egg| Egg| 0|
+------+------+-----+
:
df = sqlContext.createDataFrame([("ID_1", "Butter"),
("ID_1", "Toast"),
("ID_1","Ham"),
("ID_2", "Ham"),
("ID_2", "Toast"),
("ID_2","Egg"),],
["ID","VAL"])
df.show()
+----+------+
| ID| VAL|
+----+------+
|ID_1|Butter|
|ID_1| Toast|
|ID_1| Ham|
|ID_2| Ham|
|ID_2| Toast|
|ID_2| Egg|
+----+------+
이
내가 달성하고자하는 결과입니다! 감사!