1
다음 샘플 데이터 프레임 d
은 'col1'과 'col2'두 개의 열로 구성되어 있습니다. 전체 DataFrame d에 대한 고유 한 이름 목록을 찾고 싶습니다.팬더 데이터 프레임의 고유 문자열
d = {'col1':['Pat, Joseph',
'Tony, Hoffman',
'Miriam, Goodwin',
'Roxanne, Padilla',
'Julie, Davis',
'Muriel, Howell',
'Salvador, Reese',
'Kristopher, Mckenzie',
'Lucille, Thornton',
'Brenda, Wilkerson'],
'col2':['Kristopher, Mckenzie',
'Lucille, Thornton',
'Pete, Fitzgerald; Cecelia, Bass; Julie, Davis',
'Muriel, Howell', 'Harriet, Phillips',
'Belinda, Drake;David, Ford', 'Jared, Cummings;Joanna, Burns;Bob, Cunningham',
'Keith, Hernandez;Pat, Joseph', 'Kristopher, Mckenzie', 'Lucille, Thornton']}
df = pd.DataFrame(data=d)
col1의 경우 unique() 함수를 사용하여 처리 할 수 있습니다. 행들을 COL2 들어
len(df.col1) 10 # total number of rows
len(df.col1.unique()) 9 # total number of unique rows
세미콜론으로 분리 된 복수의 이름을 가지고있다. 예 :df.col1.unique() array(['Pat, Joseph', 'Tony, Hoffman', 'Miriam, Goodwin', 'Roxanne, Padilla', 'Julie, Davis', 'Muriel, Howell', 'Salvador, Reese', 'Kristopher, Mckenzie', 'Lucille, Thornton', 'Brenda, Wilkerson'], dtype=object)
'Pete, Fitzgerald; Cecelia, Bass; Julie, Davis'
.vector 작업을 사용하여 col2에서 고유 한 이름을 어떻게 얻을 수 있습니까? 실제 데이터 세트가 크기 때문에 for 루프를 피하려고합니다.
'df.col2.str.split (을 ';'= 진정한 확장) .stack을() .unique()'내가 올 때 이것이 내 해결책이었다 :(. Arghh는 다음 번에 빨리 와야합니다 – Dark
빠른 해결책을 가져 주셔서 감사합니다. 쉬운 일 이니 다른 사람에게 물어볼 것입니다. 위의 데이터 프레임에서 고유 한 이름을 모두 찾는 방법은 무엇입니까? – ravi
수정 된 답변을 확인하십시오. – jezrael