spark-submit을 사용하여 Spark로 실행할 수있는 스칼라 코드가 있습니다. 내가 이해 한 것으로부터 Spark은 작업을 예약하기 위해 DAG를 만듭니다.Apache Spark 작업의 DAG를 실행하지 않고 어떻게 얻을 수 있습니까?
무거운 작업을 실제로 수행하지 않고이 DAG를 검색하는 방법이 있습니까? 코드를 분석하면됩니까?
DAG 시각화가 아닌 데이터 구조 또는 최소한 서면 표현과 같은 유용한 표현이 필요합니다.
spark-submit을 사용하여 Spark로 실행할 수있는 스칼라 코드가 있습니다. 내가 이해 한 것으로부터 Spark은 작업을 예약하기 위해 DAG를 만듭니다.Apache Spark 작업의 DAG를 실행하지 않고 어떻게 얻을 수 있습니까?
무거운 작업을 실제로 수행하지 않고이 DAG를 검색하는 방법이 있습니까? 코드를 분석하면됩니까?
DAG 시각화가 아닌 데이터 구조 또는 최소한 서면 표현과 같은 유용한 표현이 필요합니다.
데이터 프레임 (spark sql)을 사용하는 경우 df.explain (true)을 사용하여 계획 및 모든 작업 (최적화 전후)을 얻을 수 있습니다.
rdd를 사용하는 경우 rdd.toDebugString을 사용하여 문자열 표현을 가져오고 rdd.dependencies를 사용하여 트리를 가져올 수 있습니다.
실제 조치없이 이것을 사용하면 실제로 무거운 짐을 들지 않고 어떤 일이 벌어 질 지 표현할 수 있습니다.
감사합니다 :) 그렇다면 데이터 프레임에 대한 종속성과 비슷한 점이 있습니까? : / – Quetzakol
'의존성에 대해 BFS를 적용하면 DAG를 (다소) 얻을 수 있습니다. – zero323