2016-10-14 2 views
2

AttributeError 또는 다른 런타임 예외를 던지기 전에 30 분 동안 실행되는 pyspark.sql의 Apache Spark 데이터로드 및 변환 응용 프로그램이 있습니다.Spark 응용 프로그램에서 명령문 시퀀스를 단계별로 실행하는 방법은 무엇입니까?

Apache Pig의 ILLUSTRATE과 같은 작은 데이터 샘플을 사용하여 응용 프로그램을 엔드 - 투 - 엔드로 테스트하고 싶습니다. 데이터를 샘플링하는 것은별로 도움이되지 않습니다. 이 작업을 수행하는 간단한 방법이 있습니까?

답변

2
  • 작업의 스파크 UI로 이동하면 DAG Visualization이 표시됩니다. 그것은 당신의 직업을 나타내는 그래프입니다.
  • 샘플을 사용하여 작업을 테스트하려면 먼저 입력으로 샘플을 사용하십시오.) 또한 클러스터에서 실행하지 않고 로컬에서 스파크를 실행 한 다음 원하는 IDE (예 : IDEA)

상세 정보 :

2

SparkListener으로 쉽게 처리 할 수있는 아이디어처럼 들립니다. Spark 애플리케이션의 웹 UI가 보여줄 수있는 모든 하위 레벨 상세 정보에 대한 액세스를 제공합니다. 드라이버 (즉, DAGSchedulerTaskSchedulerSchedulerBackend)와 실행자 사이를 비행하는 모든 이벤트는 등록 된 SparkListeners에도 게시됩니다.


스파크 리스너는 SparkListener 개발자 API의 구현 (모든 콜백 메소드는 어떤 조합/할 - 아무것도없는 곳이 SparkListenerInterface의 확장)입니다.

스파크는 웹 UI, 이벤트 지속성 (Spark History Server 용), 실행자 및 기타 서비스의 동적 할당을 위해 Spark 리스너를 사용합니다.

사용자 정의 Spark 리스너를 개발하고 SparkContext.addSparkListener 메서드 또는 spark.extraListeners 설정을 사용하여 등록 할 수 있습니다.

관련 문제