2017-05-16 3 views
0

현재 다양한 센서의 (실제) 원시 데이터가 포함 된 많은 텍스트 파일 집합이 있습니다. 새 파일은 매일 수신되고 처리됩니다. 이 기능을 온 프레미스 솔루션에서 클라우드로 옮기고 싶습니다.Azure Blob 저장소의 파일 수 제한

Azure의 Blob 저장소가이 작은 볼륨 (ish) 개인 파일에 적합한 메커니즘이 될 수 있습니까? 또는 내가 추구해야하는 다른 Azure 솔루션이 있습니까?

와 관계있는 데이터 (의도 웃기) & 요구 사항 -

  • 는 데이터 세트 근처 4백기가바이트의 총, 주로 작은 파일의 수백만 파일이 없습니다. 평균 파일 크기는 약 50kb이지만 일부 파일은 40MB를 초과 할 수 있습니다.

  • 나는 후손을 위해 기존 데이터 세트를 유지해야합니다.

  • 새 파일을 매일 업로드 한 다음 한 번 처리했습니다. 처리는 백그라운드 작업자가 대기열에서 파일을 읽음으로써 처리됩니다.
  • 초기 처리 후에 특정 파일이 다운로드/검토/재 처리됩니다.
+0

정확히 무엇을 요구하고 있는지 확실하지 않습니다. BLOB 저장소는 객체의 수에 대한 특정 제한이 없습니다. 500TB 스토리지 계정 크기 제한으로 인해 제한됩니다. –

+0

저는 올바른 일에 올바른 도구를 사용하고 있는지 확인하고 싶습니다. 나는 그것을 파일 시스템으로 사용할 수 있다고 생각하고있다. 작업을위한 가장 적합한 도구는 ... 파일 시스템으로 사용해야한다. 나는 스크류 드라이버를 사용하여 손톱을 망가 뜨릴 수는 있지만 작업에 적합한 도구는 아닙니다. –

답변

2

David의 의견에 대해 자세히 설명합시다.

David가 언급했듯이 Azure Blob 저장소에 저장할 수있는 개체 (파일)의 수에는 제한이 없습니다. 이 제한은 현재 500TB 인 스토리지 계정의 크기입니다. 이 한도에 머물러있는 한 당신은 선하게 될 것입니다. 또한 Azure 서브 스크립 션에 100 개의 스토리지 계정을 보유 할 수 있으므로 저장할 수있는 데이터의 양이 실질적으로 무한합니다.

나는 한 가지 더 언급하고 싶습니다. blob 저장소에 업로드 된 파일은 한 번 처리 된 후 보관됩니다. 이를 위해 Azure Cool Blob Storage을 살펴 보시기 바랍니다. 이것은 본질적으로 액세스가 거의 불가능한 객체를 저장하고 싶을 때만 액세스 할 수있는 객체를 필요로 할 때만이 용도로 사용됩니다. Cool Blob Storage를 사용하는 장점은 Hot Blob Storage 계정에 비해 쓰기 및 저장이 더 저렴하지만 읽기가 비싸다는 것입니다.

가능한 해결 방법은 Hot Blob Storage 계정에 파일을 저장하는 것입니다. 파일이 처리되면 Cool Blob Storage로 이동합니다. 이 Cool Blob Storage 계정은 동일하거나 다른 Azure Subscription에있을 수 있습니다.

0

필자는 파일 시스템으로 사용할 수 있다고 생각합니다. 작업에 가장 적합한 도구입니다.

예, Azure Blobs Storage는 클라우드 파일 시스템으로 사용할 수 있습니다.

데이터 세트에는 거의 모든 작은 파일의 수백만 파일이 포함되어있어 총 400GB에 달합니다. 평균 파일 크기는 약 50kb이지만 일부 파일은 40MB를 초과 할 수 있습니다.

David와 Gaurav Mantri가 언급했듯이 Azure Blob Storage는이 요구 사항을 충족시킬 수 있습니다.

나는 후손을 위해 기존 데이터 세트를 유지해야합니다.

Azure Blob 저장소의 데이터는 내구성이 있습니다. SERVICE LEVEL AGREEMENTS of Storage을 참조 할 수 있습니다.

새 파일을 매일 업로드 한 다음 한 번 처리합니다. 처리는 백그라운드 작업자가 대기열에서 파일을 읽음으로써 처리됩니다.

파일 처리 작업을 수행하려면 Azure 기능을 사용할 수 있습니다. 하루에 한 번 수행하므로 TimerTrigger 함수를 추가 할 수 있습니다.

//This function will be executed once a day 
public static void TimerJob([TimerTrigger("0 0 0 * * *")] TimerInfo timerInfo) 
{ 
    //write the processing job here 
} 

특정 파일은 초기 처리 후 재 처리/검토/다운로드 할 수있다.

블롭은 원하는 언제든지 다운로드하거나 업데이트 할 수 있습니다.

또한 데이터 처리 작업이 매우 복잡하면 Azure Data Lake Store에 데이터를 저장하고 MapReduce 또는 Hive와 같은 Hadoop 분석 프레임 워크를 사용하여 데이터를 처리 할 수 ​​있습니다. Microsoft Azure HDInsight 클러스터는 Data Lake Store에 저장된 데이터에 직접 액세스하도록 프로비저닝 및 구성 할 수 있습니다.

다음은 Azure Data Lake Store와 Azure Blob Storage의 차이점입니다.

Comparing Azure Data Lake Store and Azure Blob Storage

관련 문제