AWS EMR에서 Java 작성 스파크 애플리케이션을 실행하는 데 문제가 있습니다. 로컬에서는 모든 것이 정상적으로 실행됩니다. EMR에 일자리를 제출할 때, 일자리가 수 분이 걸릴지라도 항상 20 초 동안 "완료"됩니다. 출력이 생성되지 않고 로그 메시지가 인쇄되지 않습니다.AWS EMR에서 Java Spark 프로그램 실행
날씨가 혼동 스럽기 때문에 Spark
신청서 또는 CUSTOM_JAR
유형으로 실행해야합니다. 내 주요 방법의
봐 : 나는이 시도했다
public static void main(String[] args) throws Exception {
SparkSession spark = SparkSession
.builder()
.appName("RandomName")
.getOrCreate();
//process stuff
String from_path = args[0];
String to_path = args[1];
Dataset<String> dataInput = spark.read().json(from_path).toJSON();
JavaRDD<ResultingClass> map = dataInput.toJavaRDD().map(row -> convertData(row)); //provided function didn't include here
Dataset<Row> dataFrame = spark.createDataFrame(map, ResultingClass.class);
dataFrame
.repartition(1)
.write()
.mode(SaveMode.Append)
.partitionBy("year", "month", "day", "hour")
.parquet(to_path);
spark.stop();
}
:
1) 오류, 출력 결과 나 로그 I없이
aws emr add-steps --cluster-id j-XXXXXXXXX --steps \
Type=Spark,Name=MyApp,Args=[--deploy-mode,cluster,--master,yarn, \
--conf,spark.yarn.submit.waitAppCompletion=false, \
--class,com.my.class.with.main.Foo,s3://mybucket/script.jar, \
s3://partitioned-input-data/*/*/*/*/*.txt, \
s3://output-bucket/table-name], \
ActionOnFailure=CONTINUE --region us-west-2 --profile default
을 완료 15 초 추가되었습니다. Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession
2)
aws emr add-steps --cluster-id j-XXXXXXXXX --steps \
Type=CUSTOM_JAR, \
Jar=s3://mybucket/script.jar, \
MainClass=com.my.class.with.main.Foo, \
Name=MyApp, \
Args=[--deploy-mode,cluster, \
--conf,spark.yarn.submit.waitAppCompletion=true, \
s3://partitioned-input-data/*/*/*/*/*.txt, \
s3://output-bucket/table-name], \
ActionOnFailure=CONTINUE \
--region us-west-2 --profile default
대신 버킷
3)
aws emr add-steps --cluster-id j-XXXXXXXXX --steps \
Type=CUSTOM_JAR, \
Jar=s3://mybucket/script.jar, \
MainClass=com.my.class.with.main.Foo, \
Name=MyApp, \
Args=[s3://partitioned-input-data/*/*/*/*/*.txt, \
s3://output-bucket/table-name], \
ActionOnFailure=CONTINUE \
--region us-west-2 --profile default
가 I이 얻을의 제 첫째 파라미터로서 --deploy-mode
및 cluster
을보고, 잘못 파라미터를 읽어 ,451,515,
나는 (I 로컬 할 필요가 없습니다) 모든 종속성
내가 얻을 포함 할 때 : Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration
내가 응용 프로그램에 "yarn"
을 하드 코딩하지 않으려합니다.
AWS 문서를 실행하는 적절한 방법이 무엇인지 매우 혼란 스럽습니다.
업데이트 : 직접 서버에
실행 명령은 작업을 수행합니다. 문제는 내가 cli 명령을 정의하는 방식이어야합니다.
spark-submit --class com.my.class.with.main.Foo \
s3://mybucket/script.jar \
"s3://partitioned-input-data/*/*/*/*/*.txt" \
"s3://output-bucket/table-name"
EMR 시스템에 대한 SSH 연결에 액세스 할 수 있습니까? –
나는 가지고있다. 나는 일하는 ATM에 없다. –
'Args' 매개 변수에 왜'- master yarn'을 사용하지 않는지 잘 모르겠습니다 ... 죄송합니다. 혼란 스럽습니다! :/ – eliasah