나는 스파크에 대해 더 많이 배우고 싶었다. 그래서이 질문을하고 싶었습니다.컴퓨터의 다른 코어에서 생성 된 스파크 RDD를 찾는 방법
현재 내 로컬 컴퓨터에 스파크가 설치되어 있습니다. 16GB의 마하.
나는 Pyspark로 운영되는 Jupyter 노트북을 연결했습니다. 내가 그 노트북에 코딩을 수행 할 때
는 이제 데이터를 읽고 스파크 DataFrame로 데이터를 변환처럼, 내가 확인하고 싶었 :
1). 모든 데이터 세트가 로컬 시스템에 배포되는 곳입니다. 다른 CPU 코어를 사용하여 데이터 세트를 배포하는 것처럼? 그걸 발견 할 방법이 있을까요?
2). Jupiter 노트북을 스파크없이 사용하면 코드 및 계산을 실행하는 것이 Pyspark가있는 Jupyter 노트북을 실행하는 것과 다릅니다. 첫 번째 머신과 마찬가지로 하나의 코어를 사용하고 Pyspark가있는 Jupyter 노트북이 멀티 쓰레딩/프로세싱을 사용하여 다른 코어의 코드와 컴퓨팅을 실행합니까? 이 이해가 맞습니까?
이러한 방법을 확인할 수 있습니까?
감사
볼 수 있습니다 이해하는 것이있다 Pyspark, Spark Kernel을 사용하고 있으므로 로컬 Mac에서 코드를 실행하더라도 파이썬 노트북과 달리 분산 컴퓨팅을 사용하고 있습니까? 둘째, Spark RDD 또는 Spark DataFrames를 사용하지 않는 한 Spark 커널을 사용하고 있더라도 분산 컴퓨팅은 올바르게 수행되지 않습니다. 마찬가지로 나는 Spark에서 Pandas DataFrame을 사용할 수 있습니다. 그러나 Spark DataFrame으로 변환 될 때까지 다른 실행 프로그램에 데이터 집합을 배포하지 않습니다. 그 맞습니까? – Baktaawar
분산 컴퓨팅은 하나 이상의 코어를 사용하도록 구성하면 --master local [*]이 모든 코어를 사용하게됩니다. 두 번째 질문 - Spark를 배우려고하십시오. Spark 기본에 빠진 것처럼 보입니다. –