yarn

0열

1답변

sqoop은 실행을 위해 vcores를 어떻게 받습니까? 4 개의 매퍼가있는 sqoop 작업을 제출하면 약 50 개의 vcores를 사용할 수있는 경우에도 1 개의 vcore로 시작됩니다. 그래서 아무 parelllization도 없다. 이것은 텍스트 파일로 import sqoop 작업입니다. 이들은 vcrore 할당과 관련된 원사의 구성 매개 변수입니다.

0열

1답변

가장자리 노드에서 hadoop jar 명령 실행

나는 hadoop을 처음 사용하고 edgeNode (http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/)에서 hadoop jar 명령을 실행하는 것에 대해 다음 질문을 가지고 있습니다. hadoop jar ${JAR_FILE} {CLASS_NAMEWithPacka

3열

1답변

dataproc의 number vCPUs보다 많은 수의 작업

dataproc에서 실행자와 작업의 수와 관련하여 이상한 동작이 관찰됩니다. 이론적으로 클러스터에서 사용할 수있는 코어의 수는 병렬로 실행될 수있는 작업의 수를 제한합니다. 32 개 코어는 최대 32 개 작업을 의미합니다. 그러나 dataproc에서 우리는 종종 이론적으로 가능한 동시 작업의 두 배가되는 몇 가지 다른 동작을 관찰합니다. 다음은 예입니다.

0열

2답변

HDFS에서/tmp 폴더에 액세스 할 수 없습니다.

로컬 컴퓨터에서 node, datanode 및 mr 서비스 이름을 시작했으며 모든 서비스가 실행 중입니다. kv:~ karan.verma$ jps 4499 SecondaryNameNode 420 4676 NodeManager 4741 JobHistoryServer 5125 Jps 4406 DataNode 4600 ResourceManager

0열

1답변

yarn.scheduler 메모리 업데이트

총 Noob은 여기에서 aws ec2의 단일 노드에 Cloudera Manager를 설치했습니다. 나는 설치 마법사를 따라하지만 스파크 쉘 또는 pyspark을 실행하려고 할 때 얻을 다음과 같은 오류 메시지가 ERROR spark.SparkContext: Error initializing SparkContext. java.lang.IllegalArgum

4열

1답변

Hadoop 2.7.4 자원 문제로 원사 구성

다음은이 tutorial을 따라 hadoop 2.7.4를 구성했습니다. DataNode, NameNode 및 SecondaryNameNode가 올바르게 작동합니다. 하지만 실을 실행할 때, NodeManager는 다음과 같은 메시지가 다운 될 org.apache.hadoop.yarn.exceptions.YarnRuntimeException : org.apa

0열

1답변

log4j.properties filter out 스파크 및 YARN 로그

안녕하십니까, 여기있는 모든 분들께서 Apache Spark의 log4j에 관한 질문이 있습니다. Spark log4j에서 "log4j.rootCategory = WARN"을 사용하면 모든 경고 로그를 필터링하지만 "Spark"및 "YARN"로그를 필터링하려는 경우 구성이 어떻게 좋습니까? log4j.rootCategory=WARN, console log

0열

1답변

YARN 클러스터의 sparkR

나는 http://ec2-54-186-47-36.us-west-2.compute.amazonaws.com:8080/에 두 개의 작업자 노드와 하나의 마스터 노드가 있다는 것을 알 수 있습니다. 스파크 클러스터를 보여줍니다. 제 2 작업자 노드와 1 명의 마스터에서 jps 명령을 실행하면 모든 서비스가 작동하는 것을 볼 수 있습니다. 다음 스크립트 SPARK

7열

1답변

EMR에 SparkException을 던질 때 Spark, 잘못된 동작이 발생했습니다.

리소스 관리자로 2 노드에서 YARN을 사용하여 EMR에서 스파크 작업을 실행하고 있습니다. 내 조건이 충족되지 않으면 의도적으로 단계를 실패해야하므로 다음 단계는 구성에 따라 실행되지 않습니다. 이것을 달성하기 위해, dynamoDB에 로그 메시지를 삽입 한 후 사용자 정의 예외를 던지고 있습니다. 잘 실행되지만 Dynamo의 레코드가 두 번 삽입됩니다.

0열

1답변

Hadoop YARN이 데이터 노드에서 자원 관리자를 시작할 수 없습니다. (EC2의 Ubuntu 16.04)

AWS EC2를 사용하는 4 개의 노드에서 모든 Ubuntu 16.04를 사용하여 Hadoop 클러스터를 구축하려고합니다. 모든 것이 잘 작동하는 것 같다, 그리고 로그 파일은 네임 노드를 포맷하거나 start-dfs.sh 및 start-yarn.sh 을 실행하지만 HDFS에 파일을 업로드하려고 할 때 데이타 노드가 연결에 문제를 갖고있는 것 같다 동안 오