2017-03-07 1 views
0

성능이 저조한 DSX 작업을 성능을 높이려고합니다.스파크 히스토리 서버가 '전체'응용 프로그램을 표시하지 않습니다.

Bluemix의 기본 스파크 서비스 (이 question에 따라)에서 스파크 히스토리 서버로 이동했습니다.

나는 몇 가지 기본적인 스파크 코드를 포함하는 셀을 실행 한 : 그러나, 스파크 역사 서버가 어떤 완벽한 애플리케이션이 표시되지 않습니다

In [1]: 
x = sc.parallelize(range(1, 1000000)) 
x.collect() 

Out[1]: 
[1, 
2, 
3, 
4, 
5, 
... 

그때 브라우저에서 작업 기록 서버 페이지를 새로 고친를 :

enter image description here

어떻게 '전체'응용 프로그램을 찾을 수 있습니까?


업데이트

내가 말하는 겁니다 스파크 서비스는 Bluemix에 IBM의 관리 스파크 서비스는 내가 구성에 대한 제어가없는 것입니다.

업데이트 2

것 같습니다과 날짜는 내가 완료된 작업 보이지 않아요 이유입니다 손상지고 있지만 :

enter image description here

답변

0

저는 이것을 스파크 서비스 엔지니어링 팀에 가져 왔습니다. 이는 알려진 문제입니다.

0

당신이 이벤트를 가지고 당신의 스파크 클러스터를 구성 했을 로그? 이와 같이 :

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs 
1

노트북 컨텍스트는 작업 완료 후 20 분 동안 작동하는 Spark 앱을 시작합니다. 그 시간에 다른 작업을 제출하면 동일한 응용 프로그램을 사용하고 동일한 기록 항목에 나타납니다. 따라서 히스토리 서버에서 노트북 또는 대화식 API 커널의 작업/활동 완료를 추적 할 수 없습니다.

스파크 활동은 커널 로그에 출력을 생성합니다. 아마도 당신이 찾고있는 정보를 제공 할 수 있습니다.

+0

감사합니다. @Roland. performant가 아닌 작업을 디버깅 할 수 있도록 히스토리 서버가 정말로 필요합니다. 방금 (4 시간 후) 점검했고 히스토리 서버는 여전히 완전한 애플리케이션을 표시하지 않습니다. 로그 작업을 강제로 수행 할 수있게되어 업무 평가를 시작하기까지 20 분을 기다릴 필요가 없습니까? –

+0

죄송합니다. Spark 인프라의 해당 부분에 익숙하지 않습니다. 그것은 SparkEGO 자원 관리입니다. 커널을 다시 시작하면 히스토리 서버에 완료 항목이 전혀 없을 수도 있습니다. –

+0

Np - 응답은 다른 사용자에게 유용하기 때문에 upvoting. 그러나 내 작업 기록 로그가 손상된 것처럼 보입니다. 이를 반영하기 위해 질문을 업데이트했습니다. –

관련 문제