스파크 히스토리 서버가 '전체'응용 프로그램을 표시하지 않습니다.

성능이 저조한 DSX 작업을 성능을 높이려고합니다.스파크 히스토리 서버가 '전체'응용 프로그램을 표시하지 않습니다.

Bluemix의 기본 스파크 서비스 (이 question에 따라)에서 스파크 히스토리 서버로 이동했습니다.

나는 몇 가지 기본적인 스파크 코드를 포함하는 셀을 실행 한 : 그러나, 스파크 역사 서버가 어떤 완벽한 애플리케이션이 표시되지 않습니다

In [1]: 
x = sc.parallelize(range(1, 1000000)) 
x.collect() 

Out[1]: 
[1, 
2, 
3, 
4, 
5, 
...

그때 브라우저에서 작업 기록 서버 페이지를 새로 고친를 :

를

어떻게 '전체'응용 프로그램을 찾을 수 있습니까?

업데이트

내가 말하는 겁니다 스파크 서비스는 Bluemix에 IBM의 관리 스파크 서비스는 내가 구성에 대한 제어가없는 것입니다.

업데이트 2

것 같습니다과 날짜는 내가 완료된 작업 보이지 않아요 이유입니다 손상지고 있지만 :

출처

2017-03-07 Chris Snow

저는 이것을 스파크 서비스 엔지니어링 팀에 가져 왔습니다. 이는 알려진 문제입니다.

출처

2017-03-17 06:06:31

당신이 이벤트를 가지고 당신의 스파크 클러스터를 구성 했을 로그? 이와 같이 :

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs

출처

2017-03-07 08:20:09 Hlib

노트북 컨텍스트는 작업 완료 후 20 분 동안 작동하는 Spark 앱을 시작합니다. 그 시간에 다른 작업을 제출하면 동일한 응용 프로그램을 사용하고 동일한 기록 항목에 나타납니다. 따라서 히스토리 서버에서 노트북 또는 대화식 API 커널의 작업/활동 완료를 추적 할 수 없습니다.

스파크 활동은 커널 로그에 출력을 생성합니다. 아마도 당신이 찾고있는 정보를 제공 할 수 있습니다.

출처

2017-03-07 11:18:17

감사합니다. @Roland. performant가 아닌 작업을 디버깅 할 수 있도록 히스토리 서버가 정말로 필요합니다. 방금 (4 시간 후) 점검했고 히스토리 서버는 여전히 완전한 애플리케이션을 표시하지 않습니다. 로그 작업을 강제로 수행 할 수있게되어 업무 평가를 시작하기까지 20 분을 기다릴 필요가 없습니까? –

죄송합니다. Spark 인프라의 해당 부분에 익숙하지 않습니다. 그것은 SparkEGO 자원 관리입니다. 커널을 다시 시작하면 히스토리 서버에 완료 항목이 전혀 없을 수도 있습니다. –

Np - 응답은 다른 사용자에게 유용하기 때문에 upvoting. 그러나 내 작업 기록 로그가 손상된 것처럼 보입니다. 이를 반영하기 위해 질문을 업데이트했습니다. –

스파크 히스토리 서버가 '전체'응용 프로그램을 표시하지 않습니다.

답변

관련 문제