2016-08-12 5 views
2

파이썬에서 많은 파일을 처리 중이므로 HDF5에 출력 (각 입력 파일에 대해 하나의 데이터 프레임)을 작성해야합니다. pandas 데이터 프레임을 내 스크립트에서 HDF5으로 빨리 작성하는 가장 좋은 방법은 무엇입니까? hdf5와 같은 파이썬 모듈이 있다면 hadoopy가이 작업을 수행 할 수 있는지 확실하지 않습니다. 이와 관련하여 도움이 될 것입니다.HDF5에 팬더 데이터 프레임을 작성하십시오.

+0

http://matthewrocklin.com/blog/work/2016/02/22/dask-distributed-part-2 –

+0

Nickil은 HDFS를 HDF5로 변경하기위한 편집을 제안했지만 (이에 기초하여 답변 됨) HDFS와 HDF5는 모두 귀하의 질문과 관련하여 의미가있는 것 같습니다. 그게 무슨 뜻입니까? – Foon

답변

1

다소 일반적인 질문에 대한 답변을하기가 어렵습니다.

HDF5 파일을 어떻게 (사용하고) 읽으려고하는지 명확하지 않습니다 - 조건부로 데이터를 선택 하시겠습니까 (where 매개 변수 사용)?

당신이 저장소 개체를 열 필요가 모든

전나무 : 가게 (내가 blosc 압축 여기에 사용하고 있습니다 - 그것은 매우 빠르고 효율적입니다) 지금

store = pd.HDFStore('/path/to/filename.h5') 

당신이 쓸 수를 (또는 추가), 옆에 내가 색인해야하는 열을 지정하기 위해 data_columns 매개 변수를 사용합니다 (그래서 당신은 당신의 HDF5 파일을 읽을 때 나중에 where 매개 변수에 이러한 열을 사용할 수 있습니다) 것을 :

for f in files: 
    #read or process each file in/into a separate `df` 
    store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc') 

store.close() 
관련 문제