Spark - 내장 rdd.count() 함수가 클러스터에서 안정적입니까?

저는 현재 rdd.count() 함수를 사용하는 간단한 스파크 스크립트를 작성하고 있습니다.Spark - 내장 rdd.count() 함수가 클러스터에서 안정적입니까?

코드를 다중 컴퓨터 클러스터에 배포 할 때이 기능이 계속 작동합니까, 아니면이 기능이 분산 계산 문제에 취약합니까?

2016-08-05 mchen.ja

왜 작동하지 않을 것이라고 생각하십니까? –

이 특정 경우에 작동 할 것이라고 제안하는 문서에서 찾을 수있는 항목이 없습니다. 그러나 누적 기가 분산 된 기계에서 수행되는 계산 작업을 동기화하는 데 필요하다는 것을 나타내는 많은 문서가 있으므로이를 사용할지 조사해야하는지 궁금합니다. –

이것은 모든 분산 프레임 워크의 목적입니다. 다중 시스템 클러스터에서 작동해야합니다. Spark의 내결함성 아키텍처 덕분에 장애가 발생한 클러스터에서 작동하거나 내장 된 운영자에 대해 걱정할 필요가 없습니다. 단지 업무를 수행하는 것입니다. –

마치 MapReduce 단어 개수와 같습니다. 데이터의 파티션을 분산시키고 숫자를 합칩니다.

그래서 질문에 답하기 위해 분산 환경에서 문제없이 작동해야합니다.

2016-08-05 00:45:46

답변