2016-08-21 3 views
1

pyspark의 매퍼 기능 (즉, 작업)에서지도를 만들 수 있습니까? 즉, 작업에서 "하위 작업"을 열 수 있습니까? 그렇다면 어떻게 sparkContext를 태스크에 전달할 수 있습니까?동일한 응용 프로그램에서 작업 (지도 기능) 내에서 스파크 작업 만들기

많은 작업으로 구성된 작업을하고 싶습니다. 각 작업은 드라이버로 돌아 가지 않고 많은 작업을 생성해야합니다.

내 사용 사례는 다음과 같습니다. 작업 대기열을 사용하여 작성된 응용 프로그램의 코드 포팅을 수행하고 있습니다 - pyspark. 내 이전 응용 프로그램 작업에서 다른 작업을 만들었습니다. 우리는이 기능을 사용했습니다. (특히 시스템간에 일시적으로 두 플랫폼이 작동하는지 확인해야하기 때문에) 전체 코드를 다시 디자인하고 싶지는 않습니다. ...

답변

2

작업에서 "하위 작업"을여시겠습니까? 적어도 건강한 방식으로 * 없음

.

작업는 드라이버와 스파크에서 보낸 명령이 여러 분산 된 근로자 (집행)와 통신 한 드라이버 (중앙 코디네이터) 등이있다.

여기에서 묻는 것은 모든 작업이 하위 드라이버의 역할을 할 수 있음을 의미합니다. 작업자와 같은 대답을하는 사람도 아닙니다.

놀라운 자원 : 그와

  1. What is a task in Spark? How does the Spark worker execute the jar file?
  2. What are workers, executors, cores in Spark Standalone cluster?

* 내가 경우가하고자 존재하는 어떤 해킹이나 뭐 인식하지 오전 것을 의미했다 너무 구체적.

+0

도움을 주셔서 감사합니다 - 나는 대답 일 것이라고 생각했습니다. 나는 약간 놀았고 실제로 작업에서 다른 응용 프로그램 (스파크 컨텍스트)을 만들었고 소규모 클러스터에서 제대로 작동하는 것 같았습니다. 나는 이것이 해킹이며 행동이 정의되지 않을까봐 두려웠다 ... 당신은 나의 딜레마를 풀었다. –

+0

@OferE. 당신은 새로운 * 스파크 컨텍스트를 의미합니까? – gsamaras

+0

예 - 작동했습니다 - 주 드라이버가 모든 CPU를 사용하고 하위 작업자의 드라이버가 굶어 죽었으므로 리소스 할당에 문제가있었습니다. 그러나 특수하고 복잡한 구성을 사용하여 해결할 수 있습니다 .... 나는 이것이 두려웠습니다. 너무 해키하고, 그 행동은 정의되지 않았다. 필자는 추한 구성을 피하기를 원했기 때문에 동일한 응용 프로그램의 하위 작업에 대해 물었습니다. (저의 생각은 기아를 피하기 위해 공정한 스케줄링을 사용하는 것이 었습니다). –