대용량 데이터 세트는 일반적으로 Apache Hadoop (Amazon EMR 서비스의 일부로 사용 가능)과 같은 분산 처리 도구를 사용하여 분석됩니다. Hadoop은 여러 서버 (노드)간에 처리를 분할하여 병렬로 작업함으로써 훨씬 빠른 속도와 처리량을 달성합니다.
나는 이러한 파일을 데이터 세트 디렉토리 중 하나에보고했다 발견 :
$ aws s3 -ls s3://nasanex/NEX-DCP30/NEX-quartile/rcp26/mon/atmos/tasmax/r1i1p1/v1.0/CONUS/
2013-09-29 17:58:42 1344734800 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc
2013-10-09 05:08:17 83 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc.md5
2013-09-29 18:18:00 1344715511 tasmax_ens-avg_amon_rcp26_CONUS_201101-201512.nc
2013-10-09 05:14:49 83 tasmax_ens-avg_amon_rcp26_CONUS_201101-201512.nc.md5
2013-09-29 18:15:33 1344778298 tasmax_ens-avg_amon_rcp26_CONUS_201601-202012.nc
2013-10-09 05:17:37 83 tasmax_ens-avg_amon_rcp26_CONUS_201601-202012.nc.md5
2013-09-29 18:20:42 1344775120 tasmax_ens-avg_amon_rcp26_CONUS_202101-202512.nc
2013-10-09 05:07:30 83 tasmax_ens-avg_amon_rcp26_CONUS_202101-202512.nc.md5
...
이 디렉토리의 각 데이터 파일 (체크섬을 통해 파일 내용을 확인하기 위해 MD5 파일과 함께) 1.3TB입니다 . 파일을 검색 할 수
$ aws s3 cp s3://nasanex/NEX-DCP30/NEX-quartile/rcp26/mon/atmos/tasmax/r1i1p1/v1.0/CONUS/tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc .
Completed 160 of 160 part(s) with 1 file(s) remaining
aws s3 cp
명령을 사용하는 여러 부분 다운로드 :
나는 이러한 파일 중 하나를 다운로드했습니다. 1.3TB가
의 많은 데이터이기 때문에 여전히 상당한 시간이 걸렸습니다! 내가 생각
$ ls -l
total 1313244
-rw-rw-r-- 1 ec2-user ec2-user 1344734800 Sep 29 2013 tasmax_ens-avg_amon_rcp26_CONUS_200601-201012.nc
그것은 .nc
형식으로이하는 NetCDF입니다 :
결과는 파이썬을 통해 액세스 할 수있는 로컬 파일입니다.
EBS 데이터 볼륨이 최대 16TiB이므로 한 번에 하나의 파일을 처리하는 것이 좋습니다.
EC2를 사용하는 256T는 엄청난 시간이 걸릴 것이며 너무 비싸지 만 왜 S3에 저장하지 않는 것입니까? – error2007s
EMR을 여러 인스턴스 또는 하나의 인스턴스와 함께 사용합니까? 256T는 실제로 하나의 인스턴스에 대한 엄청난 양의 데이터입니다. Hadoop 또는 Spark 또는 다른 프레임 워크를 사용하여 데이터를 처리합니까? –
@ error2007s 이것은 공용 데이터 집합이며 파이썬을 사용하여 데이터를 분석 할 수 있어야합니다. EC2에 장착하는 것은 간단하지만 데이터를 분석 할 때 매우 느립니다. 내 질문은이 연결에 관한 것입니다. S3에 남겨 둘 계획이지만 데이터를 처리 할 수 있도록 데이터에 연결하는 방법을 모르겠습니다. – csg2136