2014-11-07 2 views
1

Apache Spark의 맵 맵 기능은 하나의 프로세서 만 사용합니까? 8 개의 CPU에 걸쳐 맵 프로 시저를 병렬 처리하고 싶습니다.하지만 "최상위"를 실행하면 한 대의 프로세서 만 볼 수 있습니다. 모든 조언을 크게 주시면 감사하겠습니다! 나는 파이썬을 사용하고있다.Apache Spark에서 하나의 프로세서 만 사용하여 작업을 맵핑합니다.

감사합니다.

+0

당신이하려는 일을 보여줄 수 있습니까? –

+0

데이터를 어떻게로드합니까? – maasg

답변

2

탑 가능성 : 그것은 작은 때문에

  1. 귀하의 데이터는 하나의 파티션을 가지고있다. 데이터의 한 파티션은 하나의 작업, 즉 하나의 코어에 의해 처리됩니다. 이것은 훌륭하고 정상입니다. repartition을 시도해 볼 수는 있지만, 데이터 세트가 작 으면 파티션을 만들기 위해 섞는 것이 낭비 일 것입니다. 당신은 실제로 오랜 시간이 아닌 map을 드라이버에 대한 몇 가지 장기 실행 비 분산 메서드 호출을보고있는 로컬
  2. 을 실행할 때
  3. 당신은 local[*]local 마스터 대신 지정하고, 그
  4. 을 평행하지 물론이다
관련 문제