2017-10-09 2 views
1

메소드로 생성 된 팬더 데이터 프레임을 포함하는 파일이 여러 개 있습니다. 제 질문은 아주 간단합니다 : RAM에 모든 데이터를로드하지 않고 .h5 파일에 저장된 DataFrame의 크기를 검색 할 수 있습니까?HDF5에 저장된 데이터의 크기

동기 부여 : HDF5 파일에 저장된 DataFrames는 매우 크기 때문에 (최대 몇 기가 바이트까지) 모든 데이터를로드하면 데이터 모양을 얻는 데 시간이 많이 걸립니다.

답변

2

아마도 PyTables를 직접 사용하려고 할 것입니다.

이 API 참조는 기본적으로 here이지만 : 데이터 집합이 열릴 때

from tables import * 
h5file = open_file("yourfile.h5", mode="r") 
print h5file.root.<yourdataframe>.table.shape 
print len(h5file.root.<yourdataframe>.table.cols) - 1 # first col is an index 

는 또한, 단지 명확성을 위해, HDF5는 모든 데이터를 읽지 않습니다. 그것은 팬더의 특질 일 것입니다.

관련 문제