두 개의 열이있는 데이터 세트가 있습니다. 첫 번째 열은 고유 한 사용자 ID를 포함하고 두 번째 열은이 ID에 연결된 속성을 포함합니다. 예를 들어두 문자열 사이의 고유 한 ID 중복 횟수를 계산하십시오.
는 :
------------------------
User ID Attribute
------------------------
1234 blond
1235 brunette
1236 blond
1234 tall
1235 tall
1236 short
------------------------
내가 알고 싶은 것은 속성 간의 상관 관계이다. 위의 예에서, 나는 금발이 또한 몇 배나되는지를 알고 싶다.
------------------------------
Attr 1 Attr 2 Overlap
------------------------------
blond tall 1
blond short 1
brunette tall 1
brunette short 0
------------------------------
내가 데이터를 피벗하고 출력을 얻기 위해 팬더를 사용하여 시도,하지만 내 데이터 세트가 속성의 수백을 가지고로, 나의 현재의 시도는 가능하지 않습니다 : 내 원하는 출력이다.
df = pandas.read_csv('myfile.csv')
df.pivot_table(index='User ID', columns'Attribute', aggfunc=len, fill_value=0)
내 전류 출력 :
--------------------------------
Blond Brunette Short Tall
--------------------------------
0 1 0 1
1 0 0 1
1 0 1 0
--------------------------------
내가 원하는 출력을 얻을 수있는 방법이 있나요? 미리 감사드립니다.
I 귀하의 첫 걸음은 이것을 더 좋은 관계 순서로 놓아야한다고 생각하십시오. 머리카락 색상/높이 속성에 이러한 속성을 논리적으로 구분하지 않습니다. – brianpck
실제로! 나는 대답을 시도했지만이 구별을 할 수 없었다. –