컴퓨터의 다른 코어에서 생성 된 스파크 RDD를 찾는 방법

나는 스파크에 대해 더 많이 배우고 싶었다. 그래서이 질문을하고 싶었습니다.컴퓨터의 다른 코어에서 생성 된 스파크 RDD를 찾는 방법

현재 내 로컬 컴퓨터에 스파크가 설치되어 있습니다. 16GB의 마하.

나는 Pyspark로 운영되는 Jupyter 노트북을 연결했습니다. 내가 그 노트북에 코딩을 수행 할 때

는 이제 데이터를 읽고 스파크 DataFrame로 데이터를 변환처럼, 내가 확인하고 싶었 :

1). 모든 데이터 세트가 로컬 시스템에 배포되는 곳입니다. 다른 CPU 코어를 사용하여 데이터 세트를 배포하는 것처럼? 그걸 발견 할 방법이 있을까요?

2). Jupiter 노트북을 스파크없이 사용하면 코드 및 계산을 실행하는 것이 Pyspark가있는 Jupyter 노트북을 실행하는 것과 다릅니다. 첫 번째 머신과 마찬가지로 하나의 코어를 사용하고 Pyspark가있는 Jupyter 노트북이 멀티 쓰레딩/프로세싱을 사용하여 다른 코어의 코드와 컴퓨팅을 실행합니까? 이 이해가 맞습니까?

이러한 방법을 확인할 수 있습니까?

감사

출처

2016-08-12 Baktaawar

Jupyter은 주로 세 부분으로 Jupyter 노트북, Jupyter 클라이언트 및 커널이있다. http://jupyter.readthedocs.io/en/latest/architecture/how_jupyter_ipython_work.html

다음은 Jupyter 홈페이지의 Kernel에 대한 간략한 설명입니다.

커널은 특정 프로그래밍 언어로 대화 형 코드를 실행하고 사용자에게 출력을 반환 프로세스입니다. 커널도 은 탭 완성 및 내성 요청에 응답합니다.

Jupyter의 직업은 커널 (파이썬 커널, 스파크 커널 ..) 및 웹 인터페이스 (전자 필기장) 사이에서 통신하는 것입니다. 후드 스파크가 운전자와 집행자를 운영하고 있기 때문에 주피터는 스파크 드라이버와 통신하는 데 도움을줍니다.

1). 모든 데이터 세트가 로컬 시스템에 배포되는 곳입니다. 마찬가지로 그것은 CPU 등의 다른 코어를 사용하여 데이터 세트를 배포합니까?. 거기에 찾을 방법이 있습니까?

스파크 --num-executors 사용하여 지정, 집행은 스파크 드라이버 (스파크 엔진을 통해 작업을 실행에 대한 책임 프로그램/과정)에 의해 관리되는대로 집행 n 개의 (작업의 실행을 담당 프로세스) 산란합니다. 따라서 스파크 프로그램을 실행하는 동안 실행 프로그램의 수를 지정하면이 커널 conf 디렉토리를 찾을 수 있습니다.

2). 주피터 노트북 을 스파크없이 사용하여 코드 및 계산을 실행하는 것은 Pyspark가있는 주피터 노트를 실행하는 것과 다릅니다. 첫 번째 코드는 단지 하나의 코어를 사용하고 한 스레드 만 사용하고 Puppark가있는 Jupyter 노트북은 코드를 실행하고 다중 코어/CPU 처리 코어를 사용합니다. 이 이해가 맞습니까?

예, 제가 설명했듯이 Jupyter는 코드를 실행시키는 인터페이스 일뿐입니다. 후드에서 Jupyter는 일반적인 Python 또는 Apache Spark이든 Kernels에 연결합니다.

스파크는 귀하의 경우에는 포트 4040에 스파크 마스터 서버에서 실행 기본적으로 작업을 모니터링하는 그 자체가 좋은 UI, 내가 사용 Jupyter 노트북을 열 때마다, 그것은 그래서 그냥 http://localhost:4040

출처

2016-08-13 05:46:39

볼 수 있습니다 이해하는 것이있다 Pyspark, Spark Kernel을 사용하고 있으므로 로컬 Mac에서 코드를 실행하더라도 파이썬 노트북과 달리 분산 컴퓨팅을 사용하고 있습니까? 둘째, Spark RDD 또는 Spark DataFrames를 사용하지 않는 한 Spark 커널을 사용하고 있더라도 분산 컴퓨팅은 올바르게 수행되지 않습니다. 마찬가지로 나는 Spark에서 Pandas DataFrame을 사용할 수 있습니다. 그러나 Spark DataFrame으로 변환 될 때까지 다른 실행 프로그램에 데이터 집합을 배포하지 않습니다. 그 맞습니까? – Baktaawar

분산 컴퓨팅은 하나 이상의 코어를 사용하도록 구성하면 --master local [*]이 모든 코어를 사용하게됩니다. 두 번째 질문 - Spark를 배우려고하십시오. Spark 기본에 빠진 것처럼 보입니다. –

컴퓨터의 다른 코어에서 생성 된 스파크 RDD를 찾는 방법

답변

관련 문제