저는 파이썬 (pandas
)을 사용하여 데이터 집합을 분석하고 있습니다. (파이썬은 너무 굉장합니다, 오픈 소스의 힘은 놀랍습니다). 내 데이터 집합의 특정 부분에 문제가 있습니다.중복 타임 스탬프를 팬더로 집계하는 방법은 무엇입니까?
나는 다음과 같은 데이터 세트
time,contract,ticker,expiry,strike,quote,price,volume
08:01:08,C,PXA,20100101,4000,A,57.8,60
08:01:11,C,PXA,20100101,4000,A,58.4,60
08:01:12,C,PXA,20100101,4000,A,58,60
08:01:16,C,PXA,20100101,4000,A,58.4,60
08:01:16,C,PXA,20100101,4000,A,58,60
08:01:21,C,PXA,20100101,4000,A,58.4,60
08:01:21,C,PXA,20100101,4000,A,58,60
이 그리고 내가 데이터를로드하는 팬더를 사용하고
... 계속된다. 이 후, 나는 다음과 같은 일을 할 수 있기를 바랄 것이다. 중복되는 시간의 볼륨 가중 평균을 취한다.
즉 오전 8시 1 분 16 초에 두 번 묻기 때문에 (58.4 * 60 + 58 * 60)/(60 + 60) 일 평균 볼륨을 기준으로 평균 가격을 계산하고 싶습니다. 볼륨 열의 볼륨은 (60 + 60)/2가됩니다.
데이터를 어떻게 읽습니까? 판다는 일반적으로 색인에 중복을 허용하지 않습니다. – eumiro
나는 pds.read_csv를 사용했다. 데이터 읽기에 문제가 없었다. 그것이 한 것은 내 첫 번째 칼럼을 데이트 등으로 만들었습니다. – Andrew