파이썬에서 많은 파일을 처리 중이므로 HDF5
에 출력 (각 입력 파일에 대해 하나의 데이터 프레임)을 작성해야합니다. pandas
데이터 프레임을 내 스크립트에서 HDF5
으로 빨리 작성하는 가장 좋은 방법은 무엇입니까? hdf5와 같은 파이썬 모듈이 있다면 hadoopy가이 작업을 수행 할 수 있는지 확실하지 않습니다. 이와 관련하여 도움이 될 것입니다.HDF5에 팬더 데이터 프레임을 작성하십시오.
2
A
답변
1
다소 일반적인 질문에 대한 답변을하기가 어렵습니다.
HDF5 파일을 어떻게 (사용하고) 읽으려고하는지 명확하지 않습니다 - 조건부로 데이터를 선택 하시겠습니까 (where
매개 변수 사용)?
전나무 : 가게 (내가 blosc
압축 여기에 사용하고 있습니다 - 그것은 매우 빠르고 효율적입니다) 지금
store = pd.HDFStore('/path/to/filename.h5')
당신이 쓸 수를 (또는 추가), 옆에 내가 색인해야하는 열을 지정하기 위해 data_columns
매개 변수를 사용합니다 (그래서 당신은 당신의 HDF5 파일을 읽을 때 나중에 where
매개 변수에 이러한 열을 사용할 수 있습니다) 것을 :
for f in files:
#read or process each file in/into a separate `df`
store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')
store.close()
관련 문제
- 1. 팬더 데이터 프레임을 MySQL에 작성하기
- 2. 팬더 데이터 프레임을 CSV로 변환
- 3. 복수 팬더 데이터 프레임을 HTML로
- 4. 팬더 : 멋지게 데이터 프레임을 인덱싱
- 5. 정수로 팬더 데이터 프레임을 인덱싱
- 6. 팬더 데이터 프레임을 멋지게 인쇄하십시오.
- 7. hdf5에 팬더 이터레이터를 올바르게 사용하는 방법은 무엇입니까?
- 8. 유형 팬더 데이터 프레임을 데이터 프레임을 스파크로 변환하는 오류
- 9. 팬더 데이터 프레임을 수정하는 방법은 무엇입니까?
- 10. 팬더 : 나는 2 개 데이터 프레임을
- 11. 팬더 데이터 프레임을 일 /시/분으로 자르기
- 12. 팬더 데이터 프레임을 두 열로 나누십시오.
- 13. 팬더 : 데이터 프레임을 다른 df에 추가
- 14. 팬더 - 시간 간격으로 데이터 프레임을 자르십시오.
- 15. 문자열 레이블로 팬더 데이터 프레임을 그려야합니다.
- 16. 팬더 데이터 프레임을 사용한 무작위 샘플링
- 17. 팬더 데이터 프레임을 이용한 색인 생성
- 18. 팬더 데이터 프레임을 통해 반복 속도가 느림
- 19. 두 팬더 데이터 프레임을 결합하는 방법?
- 20. 이 팬더 데이터 프레임을 피벗하려면 어떻게해야합니까?
- 21. 다른 샘플링 속도의 팬더 데이터 프레임을 결합
- 22. 팬더 데이터 프레임을 만드는 동안 오류가 발생했습니다
- 23. 팬더 데이터 프레임을 주황색으로 변환 표
- 24. 많은 기준으로 팬더 데이터 프레임을 분할하는 방법
- 25. 팬더 데이터 프레임을 특정 json 형식으로 변환
- 26. 팬더 데이터 프레임을 사용한 메모리 누수
- 27. 팬더 데이터 프레임을 인덱스가있는 튜플 목록으로 변환
- 28. 팬더 데이터 프레임을 목록으로 변환하려면 어떻게해야합니까?
- 29. 팬더 -이 데이터 프레임을 감안할하기 matplotlib
- 30. 단위 테스트에서 팬더 데이터 프레임을 사용하는 방법
http://matthewrocklin.com/blog/work/2016/02/22/dask-distributed-part-2 –
Nickil은 HDFS를 HDF5로 변경하기위한 편집을 제안했지만 (이에 기초하여 답변 됨) HDFS와 HDF5는 모두 귀하의 질문과 관련하여 의미가있는 것 같습니다. 그게 무슨 뜻입니까? – Foon