elastic-map-reduce

    0

    1답변

    아마존 웹 서비스에서 탄력적 인 mapreduce에 관한 질문이 있습니다. mapreduce.map/reduce.java.opts 내가 모두 매퍼의 가상 머신의 힙 크기를 확인하고 감속기 때 문제는 다음과 같습니다 당신의 다음과 같은 환경 매개 변수를 설정 할 수 있었다 최대 힙 크기는 설정에 영향을받지 않습니다. runtime = Runtime.getRu

    0

    2답변

    지도 축소를 사용하여 두 레코드 세트 조인을 수행하는 방법은 무엇입니까? SO에 게시 된 솔루션을 비롯한 대부분의 솔루션은 공통 키를 기반으로 레코드를 내보내고 감속기에 HashMap을 말한 다음 교차 제품을 사용하도록 제안합니다. (예 : Join of two datasets in Mapreduce/Hadoop) 이 솔루션은 대단히 유용하지만 대다수의 경

    3

    2답변

    hadoop의 파일 시스템 카운터를 이해하고 싶습니다. 다음은 내가 실행 한 작업의 카운터입니다. 내가 실행하는 모든 작업에서 읽은 Map 파일 바이트는 읽는 HDFS 바이트와 거의 같은 것으로 나타났습니다. 그리고지도에 의해 기록 된 파일 바이트는 매퍼가 읽은 파일 바이트와 hdfs 바이트의 합계입니다. Pls 도움! 동일한 데이터가 로컬 파일과 hdfs

    6

    2답변

    mrjob/boto 모듈을 통해 amazon의 EMR로 코드를 전송합니다. 파이썬 패키지의 소스를 다운로드하고 mrjob.config 파일의 "python_archives"필드에 tarball로 보내야합니다. (예 : numpy, boto 등) 외부 파이썬 종속성이 있습니다. 이것은 의존성 관리가 내가 원하는 것보다 더 지저분 해지고, 내 dependenc

    1

    1답변

    Amazon Elastic Map Reduce 명령 줄 도구를 성공적으로 설치했습니다. 아래의 명령 $ ./elastic-mapreduce --list 그것은 다음과 같은 오류가 발생합니다을 사용하여 현재 작업 흐름을 나열하는 동안. Error: Request has expired. Timestamp date: 2013-07-09T02:48:00-07:

    0

    1답변

    아마존 웹 서비스에 익숙하지 않습니다. 아마존의 탄력적 인지도에서 작업 흐름을 실행하려고 노력하고 있습니다. 명령 줄 인터페이스 도구를 사용하여 작업을 줄입니다. 나는 aws.But에서이 developer guide의 아마존 개발자 가이드의 단계를 따랐다. 작업 흐름을 나열하는 명령을 실행하는 경우. 다음 오류를 표시합니다. :~/Applications/e

    0

    1답변

    HiveQL을 사용하여 Amazon EMR에서 쿼리를 실행하려고합니다. 테이블 구조는 다음과 같습니다. parentId와 childId의 조합으로 그룹화 할 수있게하려면 어떻게해야합니까? parentId와 childId가 각각의 행이되도록 테이블을 다른 테이블로 내 보내야합니까? 또는 더 좋은 방법이 있습니까? 미리 감사드립니다.

    0

    1답변

    EMR에서 트리거하는 작업이 있습니다. 마스터가 매퍼를 트리거합니다. 일단 완료되면 메모리에 중량 작동을로드 한 다음 균등하게 덤프합니다. 현재 힙 공간이 부족하기 때문에 클러스터에서 실행되는 작업은 몇 분 후에 실패합니다. 기본적으로 마스터에 약 1000m를 설정합니다. 아래의 정확한 작업을 시도했지만 작동하지 않았습니다. 이 프로그램은 여전히 ​​1,0

    0

    1답변

    Amazon Elastic Mapreduce의 AMI에 Webdriver 및 PhantomJS를 설치할 수 있습니까? 부트 스트랩 스크립트에 모든 depedencies를 설치하기 위해 sudo apt-get를 사용하면이 부트 스트랩이 작업을 실행할 때마다 실행되어야합니까, 아니면 계속 남아 있습니까? 미리 빌드하고 소스 양식 S3을 복사하는 방법이 있습니까

    1

    1답변

    AWS 서비스에 약 10GB의 데이터를 저장하고 map reduce를 사용하여 데이터를 처리하려고합니다. EC2를 사용하는 것이 가장 좋습니다. 무료 티어 서비스를 사용하고 싶습니다. EC2에서 무료 서비스를 제공하기 위해 최대 613MB의 용량이 필요하며 이는 제 요구 사항을 충족시키지 못합니다. 나는 취미 프로젝트를하고 있고 비용은 제한되어있다. 무료