2016-10-07 7 views
1

저는 첫 번째 열에 중복 된 항목이 포함 된 파이썬 및 팬더의 데이터 프레임으로 작업했습니다. 데이터 프레임은 다음과 같습니다.팬더 : 데이터 프레임에서 중복 항목의 평균값을 계산합니다.

sample_id qual percent 
0 sample_1  10  20 
1 sample_2  20  30 
2 sample_1  50  60 
3 sample_2  10  90 
4 sample_3  100  20 

첫 번째 열에 중복 된 항목을 식별하고 후속 열의 평균값을 계산하는 것을 쓰고 싶습니다. 나는 오후 내내이 문제로 어려움을 겪고 된 어떤 도움을 주셔서 감사합니다 것

sample_id qual percent 
0 sample_1  30  40 
1 sample_2  15  60 
2 sample_3  100  20 

: 이상적인 출력은 다음과 유사한 것이다.

+1

예상 출력을 다시 확인할 수 있습니까? 그것은 평균값처럼 보이지 않습니다. – 3kt

+0

정확합니다. 올바른 평균 값을 포함하도록 데이터 프레임을 변경했습니다. 감사! – DDRRpy

답변

3

groupbysample_id 열 및 mean

df.groupby('sample_id').mean().reset_index()
또는
df.groupby('sample_id', as_index=False).mean()

얻을 사용하면

enter image description here

1

Groupby가 작동합니다.

data.groupby('sample_id').mean() 

그런 다음 reset_index()을 사용하여 원하는대로 정확하게 볼 수 있습니다.

관련 문제