사용 된 리소스의 스파크 제출 후 통계를 수집하는 방법이 있습니까?

저는 자원 관리자 인 spark와 Yarn과 일하고 있습니다. 나는 실행 후에 작업에 할당 된 리소스를 수집하는 방법을 찾는다. 리소스 관리자는 현재 사용량 만보고하므로 완료 후에는 0으로 설정됩니다.사용 된 리소스의 스파크 제출 후 통계를 수집하는 방법이 있습니까?

내가 사실을 알아 채지 못한다면 스파크 작업에 통계가 누적되어 결국 출력/저장됩니다. Spark History Server를 사용하는

2017-10-18 atxdba

시도 :

팩트

불꽃의 역사 서버를 통해 애플리케이션의 UI를 구성하는 것은 여전히 가능하다 후보기는 응용 프로그램의 이벤트 로그가 존재 함을 제공했다. 당신은 실행하여 히스토리 서버를 시작할 수 있습니다

./sbin/start-history-server.sh

이 불완전하고 완성 된 응용 프로그램 및 시도를 나열 기본적으로 http://<server-url>:18080에서 웹 인터페이스를 만듭니다.

파일 시스템 공급자 클래스 (아래의 spark.history.provider 참조)를 사용하는 경우 기본 로깅 디렉토리는 spark.history.fs.logDirectory 구성 옵션에 제공되어야하며 각각의 하위 디렉토리를 포함해야합니다 응용 프로그램의 이벤트 로그

이벤트를 기록하고 동일한 공유 쓰기 가능 디렉토리에 기록하도록 스파크 작업 자체를 구성해야합니다. 예를 들어 서버에 로그 디렉토리가 hdfs://namenode/shared/spark-logs으로 구성된 경우 클라이언트 측 옵션은 다음과 같습니다.

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs

2017-10-18 18:51:41 MaxU

답변