2016-06-23 3 views
0

같은 지점에 하나의 프로세스가 있습니다. 내가 아는 정보는 세부 정보 페이지의 작업 색인입니다 (대시 보드 UI 참조).Spark : 특정 인덱스에서 작업을 디버그/로그하는 방법

특정 색인에서 해당 작업을 정확하게 디버그/로그 할 수 있습니까? 다음의 답변에 따라

:

How to get ID of a map task in Spark?

나는 작업 정보를 얻는 방법을 볼 수 있습니다. 하지만 UI 대시 보드의 ID는 해당 개체에서 참조되는 것이 무엇입니까?

은 ID = org.apache.spark.scheduler.TaskInfo.id 및 색인 = org.apache.spark.schedulerTaskInfo.partionId입니까?

답변

0

대시 보드의 ID는 스파크의 파티션을 나타냅니다. 작업이 시작될 때마다 입력 데이터가 분할되고 파티션 수에 따라 태스크 ID에 매핑됩니다.

스파크 작업을 디버그하는 것은 그리 간단한 작업이 아닙니다. 알고리즘에 의해 완료된 데이터의 맵 작업이 줄어들 기 때문입니다. 사실 이후 로그를 추가하여 작업을 디버그하는 것은 상당히 쉽습니다. 로그는 작업자 또는 각 집행자의 작업 디렉토리에 수집되어야합니다.

관련 문제