2015-01-06 3 views
1

HDF5에 대한 지식이 제한되어 있지만 HDF 선택에 대해 알고 싶습니다.HDF5 하위 집합을 데이터 집합으로 저장 (파이썬에서)

일부 컨텍스트를 제공하기 위해 기계 학습의 응용 프로그램에 HDF5를 사용하는 데 관심이 있습니다. n 개의 행과 p 개의 열이있는 데이터 행렬이 있다고 가정합니다. 일반적으로 k-fold 교차 유효성 검사 설정에서 행렬을 k 개의 샘플 (각 크기는 (n/k, p))로 분할하고 학습을 위해 k-1을 반복적으로 사용하고 테스트를 위해 1을 사용합니다. 물론 모든 교육 및 테스트 세트를 저장하면 많은 공간이 사용됩니다. HDF5 선택이 도움이 될 수있는 곳입니다.

내가 올바르게 이해하면 선택은 데이터 집합의 모든 하위 집합을 참조 할 수 있습니다. 또한 선택 항목을 데이터 집합에 저장할 수 있습니다. 따라서 HDF5의 (n, p) 데이터 세트부터 시작하여 연습 데이터 세트 (원본 데이터 세트의 행 부분 집합)와 테스트 데이터 세트 (나머지 부분)가 포함 된 k 개의 그룹 (각 접기에 하나씩)을 만들 수 있습니다. 참조 용 일 뿐이므로 너무 많은 공간을 사용하지 않습니다.

선택 사항에 관한 문서를 찾았지만 명확하지 않습니다. 코드 예제는 약간 수정하기 어려운 C로되어 있으며 주로 Python을 사용합니다. PyTables에서 관련없는 것을 찾지 못했습니다. some examples in h5py을 찾았지만 데이터를 하위 집합에 넣는 방법을 생각할 수 없습니다.

누구나 이것이 흥미로운 접근법임을 확인하고 다른 데이터 세트로 데이터 집합의 행의 하위 집합을 저장하기위한 파이썬 코드를 제공 할 수 있습니까?

답변

0

나는 거의 그 덕분에 h5py 커뮤니티를 할 수있었습니다. 스레드 here을 참조하십시오.

관련 문제