팬더

2014-03-03 11 views
0

제목이 언급으로 정확하지 DataFrame 피벗 테이블 sum 함수,팬더

diag_code = df.pivot_table('PayabletoProvider',rows='DiagnosisCode',aggfunc=sum) 

내 DF에 피벗 기능을 적용한 후, 나는 이해하게 해달라고 데이터를 반환하고 있습니다 :

DiagnosisCode을 --- --- PayabletoProvider

002 -------------------- NaN의

003 --------------- ----- NaN

004 -------------------- 1824.70143.80220.001640.2540.00282.00946.31250 ...

005 ----------- 이 결과로 발생하는 이유 --------- NaN의

006 -------------------- 3324.95432.482400.65

그나마 이해 Excel에서 확인하고 그에 따라 합계 것 같습니다.

누군가이 문제를 해결할 수 있도록 도와 주시면 감사하겠습니다.

+0

데이터 유형은 무엇입니까? 문제를 일으킬 수있는 혼합 유형이있는 경우 예를 들어 판다에서 문자열과 수레를 합칠 수는 없지만 Excel은 자동으로 문자열 값을 삭제하고 수레를 합산합니다. – horatio

+0

@rauparaha Excel을 사용하여 IsNumber와 모두 True인지 확인했습니다. 이 문제를 일으킬 수있는 숫자 유형이 다를 수도 있습니까? 어쨌든 Excel과 같은 함수를 복제 할 수 있습니까? 작은 데이터 세트로 시작했지만 Pandas를 사용하는 이유는 데이터 크기가 Excel이 실패하는 몇 백만에 미치기 때문입니다. – BernardL

+0

수입 방법을 모르지만 예를 들면 실수입니다. 모든 마커를 지정하지 않은 CSV 가져 오기는 유형을 잘못 감지 할 수 있습니다. 'df.info()'를 사용하여 컬럼이'object'가 아닌 올바른 타입인지 확인하십시오. 문제의 근원을 확인하지 않고 문자열을 삭제하는 것이 최후의 수단이되어야하지만 어떻게해야할까요? (여기를보십시오.) (http://stackoverflow.com/questions/12725417/drop-non-numeric-columns-from-a-pandas-dataframe) . – horatio

답변

0

이전 질문이지만 대답은 aggfunc가 합계 대신 "np.sum"을 기대할 수 있습니다.