2014-06-19 3 views
0

이 양식의 데이터 프레임이 있습니다. 그러나, 내 마지막 데이터 프레임에서, 나는 유일한 값을 가지고있는 데이터 프레임을 얻고 싶습니다.올해 판다 파이썬 데이터 프레임에 조건부로 고유 한 행 가져 오기

 Name     Org    Year 
4 New York University  doclist[1] 2004 
5 Babson College   doclist[2] 2008 
6 Babson College   doclist[5] 2008 

이상적으로, 내 dataframe이 대신

4 New York University  doclist[1] 2004 
5 Babson College   doclist[2] 2008 

내가 지금까지했던 어떤 모양 것입니다. 저는 groupby를 1 년 내내 사용했고, 나는 올해까지 고유 한 이름을 얻을 수있는 것 같습니다. 그러나 "Org"열과 같은 다른 모든 정보를 잃어 버렸기 때문에 멈추었습니다. 조언 감사!

#how to get unique rows per year? 
q = z.groupby(['Year']) 

#print q.head() 
#q.reset_index(level=0, drop=True) 

q.Name.apply(lambda x: np.unique(x)) 

다음과 같은 결과가 표시됩니다. 어떻게 다른 열 정보를 포함뿐만 아니라 보조 인덱스 제거 할 (예 : 6, 68, 66, 72)

Year           
2008 6          Babson College 
     68    European Economic And Social Committee 
     66          European Union 
     72      Ewing Marion Kauffman Foundation 

답변

1

를하는 경우 각 이름에 대한 첫 번째 항목을 수행 할 수 있습니다 유지되고 싶은 모든 drop_duplicates 데이터 정렬 기준으로 첫 번째 항목을 유지하므로 특정 항목을 유지하려는 경우 먼저 정렬 할 수 있습니다.

In [98]: q.drop_duplicates(subset='Name') 
Out[98]: 
         Name   Org Year 
0  New York University doclist[1] 2004 
1   Babson College doclist[2] 2008 
+0

감사합니다. – user3314418

관련 문제