2017-12-24 3 views
0

pyspark 프레임 워크에서 python 스크립트 인 RDD를 실행하여 데이터 분석 및 데이터 세트 시각화 생성이 필요합니다. AWS에서 로컬 시스템 (VM) 대신에 할 수 있다면 도움이 필요합니다.Apache pyspark에서 python 스크립트를 실행하는 AWS 설정 env

EMR 또는 EC2를 사용하는 AWS에서 몇 가지 옵션을 사용할 수 있지만 AWS에서 12 개월 동안 무료 평가판을 사용할지라도 관련 단계 및 가격 정책에 대해서는 확신 할 수 없습니다.

아무도 도와 줄 수 있습니까?

답변

0

는 당신이 옵션 여기 가지고있다 :

옵션 1 : 당신은 AWS에 자신의 인스턴스를 생성하고 하둡 클러스터 (단일 nide 또는 필요에 따라 다중 노드)를 설정하고에 pyspark를 실행할 수 있습니다 .

옵션 2 : Amazon에서 제공하는 EMR (Elastic Map Reduce)을 사용하면 클러스터 된 환경을 만들 수 있으며 거기에서 pyspark 코드를 실행할 수 있습니다.

옵션 1은 저렴하지만 모든 것을 직접 구성해야합니다. 옵션 2는 옵션 1보다 비용이 많이 들지만 미리 준비된 환경을 제공합니다.

무료 티어를 사용하려면 옵션 1을 사용하는 것이 좋습니다. 아마존 온라인 계산기를 사용하여 비용을 비교할 수 있습니다. 다음은 온라인 계산기 링크입니다. aws online calculator

관련 문제