2014-01-10 2 views
2

매우 초급 질문이 있습니다. 방금 Amazon의 EMR에 관한 설명서를 읽었습니다. 가입하기 전에 R을 사용하는 것에 대해 물어보고 싶었습니다.아마존 EMR : Amazon EMR에서 R 코드 사용

나는 다른 여러 모듈을 호출하는 하나의 R 모듈을 가지고 있으며, 실행이 끝나기 바로 전에 여러 변수를 .txt 파일로 저장합니다.

내 기본적인 질문은 Amazon의 EMR에서 할 수 있습니까? .txt 출력 파일에 액세스 할 수 있습니까? 마지막으로, 내 R 스크립트는 Excel 스프레드 시트의 일부 데이터를 읽습니다. Excel 파일을 시스템에 업로드해도 EMR에서 계속이 작업을 수행 할 수 있습니까?

감사

마이크

+0

emr이 R 스크립트 실행과 관련 될 수 있는지는 명확하지 않습니다. 당신은 hadoop이 무엇인지, map-reduce 패턴이 어떻게 작동하는지 알고 있습니까? – alko

+0

@alko, 나는 내가 최근에 읽은 것을 알고 있습니다. Hadoop과 map-reduce 패턴은 여러 컴퓨터의 컴퓨팅 성능을 확산 (즉 프로세스를 여러 컴퓨터로 매핑) 한 다음 결과를 하나의 시스템에 집계 (즉 축소)합니다. 이 올바른지? 여기에서 Amazon EMR 시스템을 살펴 보았습니다.이 시스템은 스트리밍 클러스터 프로세스를 사용하여 R 스크립트를 실행할 수 있음을 나타냅니다. 이 올바른지? 고마워! – Mike

+0

"MapReduce with Hadoop and Amazon EMR"- http://www.joyofdata.de/blog/mapreduce-r-hadoop-amazon-emr/ – Raffael

답변

2

@ 마이크, EMR에 R을 실행

  • 아래 3 질문에 대한 답변 : 네 당신이 할 수있는. EMR 인스턴스에 R을 설치하면 EMR에서 R 프로그램을 실행할 수 있습니다. 다중 인스턴스 클러스터를 사용하려는 경우 MapReduce moules를 작성한다고 가정합니다. 당신이 프로그램을 "평범한"R 프로그램에 관한 것이라면, 당신은 단지 하나의 상당한 인스턴스를 사용해야 만 할 것입니다. 차라리 RMI와 EC2 인스턴스를 사용할 것입니다 (Louis Aslett를 찾으십시오).

  • 이동 출력 파일 : 가능합니다. 프로그램 출력을 EMR에서 원하는 S3 저장 버킷으로 전송할 수 있습니다. 파일을 이동하려면 S3DistCp 명령을 호출하는 단계를 추가해야합니다. 내 프로젝트에서 예 -

    --jar /home/hadoop/lib/emr-s3distcp-1.0.jar --args '--src,hdfs:///contents,--dest,s3://<bucket-name>/' 
    
  • 읽기 스프레드 시트 : AFAIK, 당신은 R의 로컬 설치에이 작업을 수행 할 수있는 경우에, 당신은 또한 EMR에 그것을 할 수 있어야합니다. 부트 스트랩 프로세스 중에 필요한 패키지/라이브러리가 설치되어 있는지 확인해야합니다.

나는 (RCpp, reshap2, RJSONIO, 기능 등을 소화) 모든 의존성이있는 EMR 인스턴스에 squeezy-크랑 및 rmr2를 설치할 수입니다. 나는 여전히 R 프로그램을 한 걸음으로 부를 수 없다. SSH 세션을 사용하고 쉘 프롬프트에서 R CMD 명령을 실행해야합니다. Windows를 사용하는 경우 putty.exe이 적합합니다.

+1

R이 미리 설치되어 있으며 S3의 경우 추가 조치가 필요하지 않습니다. - S3가 통합되었습니다. 기본적으로 EMR이 적용됩니다. – Raffael

관련 문제