2017-12-10 6 views
2

S3Fs는 S3에 대한 Python 파일 인터페이스이고 은 DASK에 Azure 저장소 BLOB에 대한 파이 톤 (Pythonic) 인터페이스가 없습니다. Azure Storage 용 Python SDK Blob은 BLOB를 읽고 쓸 수있는 방법을 제공하지만 인터페이스는 클라우드에서 로컬 컴퓨터로 파일을 다운로드해야합니다. 로컬 디스크에 지속하지 않고 스트림 또는 문자열 으로 DASK 병렬 읽기를 지원하기 위해 BLOB를 읽는 솔루션을 찾고 있습니다. 여기dask : Microsoft Azure Blob에서 DataFrame으로 CSV 파일을 읽는 방법

+1

마이츠 azure-datalake 스토리지가 당신을위한 해결책일까요? – mdurant

+0

그 옵션, 하늘 - 데이터 호수를 사용하여 구현 된 솔루션을 가르쳐 주시겠습니까. –

답변

0

내가 새로 추진해 왔습니다 코드 : 사전에 https://github.com/dask/dask-adlfs

가장 CONDA-설치 요구 사항을 (DASK, cffi, oauthlib)에 의해 제공 될 수 있지만 당신은 그 위치에서 핍-설치할 수 있습니다. 이 코드는 새로운 검증되지 않은 완전히 브랜드이기 때문에 거친 가장자리를 기대

import dask.dataframe as dd 
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={ 
    tenant_id='mytenant', client_id='myclient', 
    client_secret='mysecret'}) 

: 파이썬 세션에서 import dask_adlfs을하는 것은 그 이후는 같은 DASK 기능과 푸른 URL을 사용할 수 있도록, DASK와 백엔드를 등록하기에 충분합니다 . 행운을 빌어 그 가장자리를 깎아 내릴 수 있습니다.

관련 문제