pyspark의 매퍼 기능 (즉, 작업)에서지도를 만들 수 있습니까? 즉, 작업에서 "하위 작업"을 열 수 있습니까? 그렇다면 어떻게 sparkContext를 태스크에 전달할 수 있습니까?동일한 응용 프로그램에서 작업 (지도 기능) 내에서 스파크 작업 만들기
많은 작업으로 구성된 작업을하고 싶습니다. 각 작업은 드라이버로 돌아 가지 않고 많은 작업을 생성해야합니다.
내 사용 사례는 다음과 같습니다. 작업 대기열을 사용하여 작성된 응용 프로그램의 코드 포팅을 수행하고 있습니다 - pyspark. 내 이전 응용 프로그램 작업에서 다른 작업을 만들었습니다. 우리는이 기능을 사용했습니다. (특히 시스템간에 일시적으로 두 플랫폼이 작동하는지 확인해야하기 때문에) 전체 코드를 다시 디자인하고 싶지는 않습니다. ...
도움을 주셔서 감사합니다 - 나는 대답 일 것이라고 생각했습니다. 나는 약간 놀았고 실제로 작업에서 다른 응용 프로그램 (스파크 컨텍스트)을 만들었고 소규모 클러스터에서 제대로 작동하는 것 같았습니다. 나는 이것이 해킹이며 행동이 정의되지 않을까봐 두려웠다 ... 당신은 나의 딜레마를 풀었다. –
@OferE. 당신은 새로운 * 스파크 컨텍스트를 의미합니까? – gsamaras
예 - 작동했습니다 - 주 드라이버가 모든 CPU를 사용하고 하위 작업자의 드라이버가 굶어 죽었으므로 리소스 할당에 문제가있었습니다. 그러나 특수하고 복잡한 구성을 사용하여 해결할 수 있습니다 .... 나는 이것이 두려웠습니다. 너무 해키하고, 그 행동은 정의되지 않았다. 필자는 추한 구성을 피하기를 원했기 때문에 동일한 응용 프로그램의 하위 작업에 대해 물었습니다. (저의 생각은 기아를 피하기 위해 공정한 스케줄링을 사용하는 것이 었습니다). –