Spark에서 파티션을 이해하고 싶습니다. 필자는 Windows 10에서 로컬 모드로 스파크를 실행하고 있습니다. 내 랩톱에는 2 개의 물리적 코어와 4 개의 논리 코어가 있습니다.Spark : 파티션 이해 - 코어
1/용어 : 나에게 스파크의 핵심 = 스레드. 스파크의 핵심은 물리적 인 핵심과 다릅니다. 맞습니까? 스파크 코어는 작업과 관련이 있습니다. 그렇다면 sparksql 데이터 프레임에 4 개의 파티션이있는 경우 파티션에 대한 스레드가 필요하므로 4 개의 스레드가 필요합니까?
2/논리 코어가 4 개인 경우 내 랩톱에서 동시에 4 개의 동시 스레드를 실행할 수 있다는 의미입니까? 그래서 스파크 4?
3/파티션 수 설정 : 데이터 프레임의 파티션 수를 선택하여 추가 변환 및 작업을 가능한 빨리 수행 할 수 있습니까? - 내 노트북에는 4 개의 논리 코어가 있으므로 4 개의 파티션이 있어야합니까? - 실제 코어 또는 논리 코어와 관련된 파티션 수는 얼마입니까? - 스파크 문서에서는 CPU 당 2-3 개의 작업이 필요하다고 기록되었습니다. 파티션의 nb는 4 또는 6과 동등해야합니다 두 개의 물리적 코어가 있기 때문에?
는 (I 파티션의 수는 로컬 모드에 많은 영향을주지 않습니다 알고 있지만 이것은 단지 이해하는 것입니다)는 "스파크 코어"로
nit : 저는 RDD가있는 Spark의 메인/코어 모듈을 가리키는 "spark core"를 사용합니다. 그것이 나를위한 스파크 코어입니다. –