2016-12-01 3 views
0

실 클라이언트가있는 Spark Cluster에서 실행중인 Apache Zeppelin에서 % pyspark 프로그램을 생성하여 실행했습니다. 이 프로그램은 HDFS에서 Dataframe의 파일을 읽고 간단한 groupby 명령을 수행하고 출력을 성공적으로 인쇄합니다. Zeppellin 버전 0.6.2와 Spark 2.0.0을 사용하고 있습니다. enter image description hereSpark Cluster 및 YARN에서 실행중인 Apache Zeppelin

을하지만 동시에 스파크 UI를 확인할 때 모든이 작업 아무 것도 없다 :

내가 원사에서 실행중인 작업을 볼 수 있습니다 (application_1480590511892_0007 참조)

enter image description here

질문 1 :이 작업이이 두 창에 나타나지 않아야합니까?

1 제플린 블록 :

%python 
from pyspark.sql import SparkSession 
from pyspark.sql import Row 
import collections 

spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 

2 또한

의 SparkUI 이미지에서 완성 된 응용 프로그램 바로 위의 % 파이썬 인터프리터가 단순히 SparkSession를 초기화하고 중지와 제플린 작업이었다 제플린 블록 :

%python 
spark.stop() 

질문 2 :이 작업은 YARN UI에 나타나지 않았습니다. SparkUI에 작업이 나타날 때마다 그것이 Spark Resource Manager로 실행 중임을 의미합니까?

이러한 질문에 대한 통찰력을 얻으실 수 있습니다.

+0

나는 그것에 대해 확신이 없지만 문맥을 중지시키는 문장을 제거하면 작업을 볼 수 있습니다. –

답변

0

Zeppelin은 인터프리터를 처음 사용하면 연속 스파크 응용 프로그램을 실행합니다. 모든 단락은이 응용 프로그램에서 실행됩니다. 두 번째 단락에서는 SparkSession (spark.stop)을 중지하므로 인터프리터를 처음 사용할 때 작성된 응용 프로그램이 종료됩니다. 따라서 완료 된 응용 프로그램 섹션에서 작업을 볼 수 있습니다. spark.stop을 제거하면 실행중인 응용 프로그램 아래에 작업이 표시됩니다.

관련 문제