2016-07-22 2 views
1

AWS는 several public "big data" data sets을 사용할 수 있습니다. 일부는 EBS에서 무료 호스팅되며 NASA NEX climate data 같은 다른 호스트는 S3에서 호스팅됩니다. 내가 EBS에서 호스팅되는 것들과 함께 작동하는 방법에 대한 more discussion을 찾았지만 실제로 데이터와 함께 작업하기에 충분한 속도로 EC2 내에 S3 데이터 세트를 가져올 수 없었습니다.AWS S3 대형 공용 데이터 세트 사용

그래서 내 큰 문제 ("~ 256T)"를 "EC2"로 가져 왔습니다. 내가 시도한 한 가지 접근법은 공개 S2를 EC2에 장착하는 것이다. in this tutorial. 그러나 파이썬을 사용하여이 마운트 된 데이터를 평가할 때 처리 시간이 매우 느려졌습니다.

AWS CLI (cp 또는 sync)를 사용하는 것이 올바른 접근 방법 일 수 있다고 생각하기 시작했으나 큰 공개 S3 데이터 세트와 관련하여 이에 대한 문서를 찾는 데 여전히 어려움이 있습니다.

요약하면 AWS의 S3 공용 빅 데이터 세트를 사용하는 가장 좋은 방법을 탑재하고 있으며 CLI가 더 좋으며 EMR 문제입니까 아니면 전체 인스턴스 크기 및/또는 대역폭에 문제가 있습니까?

+1

EC2를 사용하는 256T는 엄청난 시간이 걸릴 것이며 너무 비싸지 만 왜 S3에 저장하지 않는 것입니까? – error2007s

+0

EMR을 여러 인스턴스 또는 하나의 인스턴스와 함께 사용합니까? 256T는 실제로 하나의 인스턴스에 대한 엄청난 양의 데이터입니다. Hadoop 또는 Spark 또는 다른 프레임 워크를 사용하여 데이터를 처리합니까? –

+0

@ error2007s 이것은 공용 데이터 집합이며 파이썬을 사용하여 데이터를 분석 할 수 있어야합니다. EC2에 장착하는 것은 간단하지만 데이터를 분석 할 때 매우 느립니다. 내 질문은이 연결에 관한 것입니다. S3에 남겨 둘 계획이지만 데이터를 처리 할 수 ​​있도록 데이터에 연결하는 방법을 모르겠습니다. – csg2136

답변

2

대용량 데이터 세트는 일반적으로 Apache Hadoop (Amazon EMR 서비스의 일부로 사용 가능)과 같은 분산 처리 도구를 사용하여 분석됩니다. Hadoop은 여러 서버 (노드)간에 처리를 분할하여 병렬로 작업함으로써 훨씬 빠른 속도와 처리량을 달성합니다.

나는 이러한 파일을 데이터 세트 디렉토리 중 하나에보고했다 발견 :

$ aws s3 -ls s3://nasanex/NEX-DCP30/NEX-quartile/rcp26/mon/atmos/tasmax/r1i1p1/v1.0/CONUS/ 

2013-09-29 17:58:42 1344734800 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc 
2013-10-09 05:08:17   83 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc.md5 
2013-09-29 18:18:00 1344715511 tasmax_ens-avg_amon_rcp26_CONUS_201101-201512.nc 
2013-10-09 05:14:49   83 tasmax_ens-avg_amon_rcp26_CONUS_201101-201512.nc.md5 
2013-09-29 18:15:33 1344778298 tasmax_ens-avg_amon_rcp26_CONUS_201601-202012.nc 
2013-10-09 05:17:37   83 tasmax_ens-avg_amon_rcp26_CONUS_201601-202012.nc.md5 
2013-09-29 18:20:42 1344775120 tasmax_ens-avg_amon_rcp26_CONUS_202101-202512.nc 
2013-10-09 05:07:30   83 tasmax_ens-avg_amon_rcp26_CONUS_202101-202512.nc.md5 
... 

이 디렉토리의 각 데이터 파일 (체크섬을 통해 파일 내용을 확인하기 위해 MD5 파일과 함께) 1.3TB입니다 . 파일을 검색 할 수

$ aws s3 cp s3://nasanex/NEX-DCP30/NEX-quartile/rcp26/mon/atmos/tasmax/r1i1p1/v1.0/CONUS/tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc . 
Completed 160 of 160 part(s) with 1 file(s) remaining 

aws s3 cp 명령을 사용하는 여러 부분 다운로드 :

나는 이러한 파일 중 하나를 다운로드했습니다. 1.3TB가 의 많은 데이터이기 때문에 여전히 상당한 시간이 걸렸습니다! 내가 생각

$ ls -l 
total 1313244 
-rw-rw-r-- 1 ec2-user ec2-user 1344734800 Sep 29 2013 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc 

그것은 .nc 형식으로이하는 NetCDF입니다 :

결과는 파이썬을 통해 액세스 할 수있는 로컬 파일입니다.

EBS 데이터 볼륨이 최대 16TiB이므로 한 번에 하나의 파일을 처리하는 것이 좋습니다.