2017-09-16 2 views
2

spark-submit을 사용하여 Spark로 실행할 수있는 스칼라 코드가 있습니다. 내가 이해 한 것으로부터 Spark은 작업을 예약하기 위해 DAG를 만듭니다.Apache Spark 작업의 DAG를 실행하지 않고 어떻게 얻을 수 있습니까?

무거운 작업을 실제로 수행하지 않고이 DAG를 검색하는 방법이 있습니까? 코드를 분석하면됩니까?

DAG 시각화가 아닌 데이터 구조 또는 최소한 서면 표현과 같은 유용한 표현이 필요합니다.

+1

'의존성에 대해 BFS를 적용하면 DAG를 (다소) 얻을 수 있습니다. – zero323

답변

2

데이터 프레임 (spark sql)을 사용하는 경우 df.explain (true)을 사용하여 계획 및 모든 작업 (최적화 전후)을 얻을 수 있습니다.

rdd를 사용하는 경우 rdd.toDebugString을 사용하여 문자열 표현을 가져오고 rdd.dependencies를 사용하여 트리를 가져올 수 있습니다.

실제 조치없이 이것을 사용하면 실제로 무거운 짐을 들지 않고 어떤 일이 벌어 질 지 표현할 수 있습니다.

+0

감사합니다 :) 그렇다면 데이터 프레임에 대한 종속성과 비슷한 점이 있습니까? : / – Quetzakol

관련 문제