나는 아파치 스파크를 사용하기 시작했다. 클러스터 모드 (master, slave1, slave2)를 사용 중이며 Hadoop (hdfs)에 보관되어있는 큰 파일을 처리하려고합니다. SparkContext에서 textFile 메서드를 사용하고 있습니다. 파일이 처리되는 동안 노드를 모니터링하면 slave2가 작동 중임을 알 수 있습니다. 처리 후 slave2에는 작업이 있지만 slave1에는 작업이 없습니다. hdfs를 사용하는 대신 로컬 파일을 사용하는 경우 두 슬레이브가 동시에 작동합니다. 나는 왜 이런 행동을하지 않습니다. 제발, 아무도 내게 단서를 줄 수 있니?스파크 : hdfs 클러스터 모드
2
A
답변
2
이 동작의 주된 이유는 데이터 지역의 개념입니다. Spark의 응용 프로그램 마스터가 새로운 실행 프로그램 작성을 요청하면 데이터가있는 동일한 노드에 할당하려고 시도합니다.
e.e. 귀하의 경우, HDFS는 동일한 노드에 파일의 모든 블록을 작성한 것 같습니다. 따라서 Spark은 해당 노드에서 집행자를 인스턴스화합니다. 대신 로컬 파일을 사용하면 모든 노드에 파일이 있으므로 데이터 위치가 더 이상 문제가되지 않습니다.
관련 문제
- 1. 스파크 제출 s3에서 클러스터 모드
- 2. 스파크 : 클러스터 모드 응용 프로그램 모니터링
- 3. 아파치 스파크 얀 클러스터
- 4. 스파크 필요 HDFS
- 5. 스파크 제출 구성 사용 방법 : jars, packages : 클러스터 모드?
- 6. 마스터를 사용하는 스파크 클러스터
- 7. Slf4j 대 Log4j - 스파크 클러스터 모드 로깅을 위해 사용할 것인가?
- 8. HDFS 안전 모드 문제
- 9. 미디엄 하둡/스파크 클러스터 관리
- 10. 스파크 클러스터 란 무엇을 의미합니까?
- 11. 스파크 1.1.0 실 클러스터 모드에서
- 12. hadoop 클러스터에 스파크 클러스터 설치
- 13. 스파크 클러스터 작업자의 구성을 수정해야합니까?
- 14. 스파크 제출 YARN 모드 HADOOP_CONF_DIR 내용
- 15. AWS에서 스파크 HDFS 크기를 사용 하시겠습니까?
- 16. 웜 모드 클러스터 업그레이드
- 17. 웹 응용 프로그램에서 Hdfs 클러스터 찾아보기
- 18. 스파크 클러스터 드라이버가 오류와 함께 실패합니다 -
- 19. 스파크 클러스터 - "SSH 준비"상태는 암호
- 20. EMR 클러스터 마스터에서 외부로 스파크 제출 사용
- 21. 두 개의 마스터 노드가있는 스파크 클러스터. 가능한가?
- 22. 원사 클러스터 모드의 서버에서만 실행되는 스파크 작업
- 23. Spark SQL 중고 서버는 클러스터 모드에서 실행할 수 없습니까? 내가 클러스터 모드에서 스파크 SQL 중고품 서버를 시작하려고 스파크 1.2.0에서는
- 24. 로컬 파일 및 클러스터 모드
- 25. NoSQL없이 HDFS
- 26. 스파크 독립 모드 : 프로그래밍 방식으로 작업 제출
- 27. 내가 spark.textFile ("hdfs : //...log.txt") 할 때 클러스터 환경에서 일어날 일
- 28. (HDFS) 대규모 데이터를 클러스터 내에서 안전하게 복사하는 방법은 무엇입니까?
- 29. 클러스터 된 구성에서 최대 절전 모드 검색?
- 30. nodejs로드 균형 조정을위한 PM2 클러스터 모드
감사합니다. @ mark91. 따라서 HDFS를 사용하고 모든 노드를 작동시키는 방법은 없습니다. – chufabit
Spark에서 모든 클러스터 리소스를 사용하는 것이 HDFS가 슬레이브에 데이터를 배포하는 방법이라고 생각하지 않습니다. 이를 수행하는 주요 방법은 실행 프로그램의 수와 Spark에서 사용하는 파티션 수를 제어하는 것입니다. 이를 늘리면 클러스터에서 더 많은 리소스를 활용하게됩니다. 어쨌든, 집행자가 클러스터간에 어떻게 퍼져 있는지 염려한다면 HDFS의 복제 요소를 고려해야합니다. 3 복제본 요소를 가짐으로써 노드 3 개가 똑같은 분할을 갖게되어 모든 노드가 자격을 갖추게됩니다. – mgaido
대단히 고맙습니다. @ mark91 – chufabit