수천 개의 GRIB 파일이있는 디렉토리가 있다고 가정합니다. 내가 그들을 쿼리 할 수 있도록 dask 배열에 그 파일을로드하고 싶습니다. 어떻게이 일을 할 수 있습니까? 아래의 시도는 효과가있는 것처럼 보이지만 각 GRIB 파일을 열어야하며 실행하는 데 오랜 시간이 걸리며 내 기억이 모두 필요합니다. 더 좋은 방법이 있어야합니다.GRIB 파일의 디렉토리를 Dask 배열에로드하는 방법
내 시도 : dask.delayed
를 사용하는
import dask.array as da
from dask import delayed
import gdal
import glob
import os
def load(filedir):
files = sorted(glob.glob(os.path.join(filedir, '*.grb')))
data = [da.from_array(gdal.Open(f).ReadAsArray(), chunks=[500,500,500], name=f) for f in files]
return da.stack(data, axis=0)
file_dir = ...
array = load(file_dir)
xarray는 dask를 기반으로 작성되었으며 PyNIO를 통한 GRIB 지원은 현재 사용 가능합니까? 그러나 데이터를 빠르게 분석하려면 hdf5 또는 NetCDF4로 다시 작성해야하며 적절한 청킹을 사용하면 추가 분석이 매우 쉬워집니다. – kakk11