Apache Spark에서 하나의 프로세서 만 사용하여 작업을 맵핑합니다.

Apache Spark의 맵 맵 기능은 하나의 프로세서 만 사용합니까? 8 개의 CPU에 걸쳐 맵 프로 시저를 병렬 처리하고 싶습니다.하지만 "최상위"를 실행하면 한 대의 프로세서 만 볼 수 있습니다. 모든 조언을 크게 주시면 감사하겠습니다! 나는 파이썬을 사용하고있다.Apache Spark에서 하나의 프로세서 만 사용하여 작업을 맵핑합니다.

감사합니다.

댄

출처

2014-11-07 Dan Williams

당신이하려는 일을 보여줄 수 있습니까? –

데이터를 어떻게로드합니까? – maasg

탑 가능성 : 그것은 작은 때문에

귀하의 데이터는 하나의 파티션을 가지고있다. 데이터의 한 파티션은 하나의 작업, 즉 하나의 코어에 의해 처리됩니다. 이것은 훌륭하고 정상입니다. repartition을 시도해 볼 수는 있지만, 데이터 세트가 작 으면 파티션을 만들기 위해 섞는 것이 낭비 일 것입니다. 당신은 실제로 오랜 시간이 아닌 map을 드라이버에 대한 몇 가지 장기 실행 비 분산 메서드 호출을보고있는 로컬
을 실행할 때
당신은 local[*]의 local 마스터 대신 지정하고, 그

출처

2014-11-07 18:15:29

Apache Spark에서 하나의 프로세서 만 사용하여 작업을 맵핑합니다.

답변

관련 문제