저는 Spark를 처음 접했고 결과 집합에 4 억 개의 행이있는 Spark SQL을 실행하려고했습니다. Jupyter 노트북에서 Spark SQL을 실행하고 있습니다. Azure HDInsight에서 Spark를 사용하고 있습니다. 집행 인의 3 Jupyter 노트북을 사용하여 Spark SQL을 사용하여 4 억 개의 행 풀기
을만큼 나는 실행으로
집행자 당 코어의- 번호 : 스파크 클러스터의 구성은 다음과 처음 몇 줄을주고 쿼리를하면 모든 것이 잘 작동합니다. 그러나 모든 행, 즉 4 억 행을 꺼내려고하면 "집행자가 요청을 취소했습니다"라는 오류가 발생합니다.
내가 알고 싶은 첫 번째 점은 Spark SQL 또는 Jupyter 노트북에서이 볼륨의 데이터를 가져올 수 있다는 것입니다.
실제로이 볼륨을 가져올 수있는 경우, 내가 잘못하고있는 것은 무엇입니까?
현재 정확한 오류 메시지가 표시되지 않으며 오류 메시지와 함께이 게시물을 곧 업데이트합니다.
하지만 누구나 도움을받을 수 있다면 큰 도움이 될 것입니다.
감사합니다.
4GB 집행자와 함께 5 억 행을 처리하고 싶습니다. 그게 야심 찬 것입니다. 실제로 1 천만 달러를 처리하면 운이 좋을 것입니다. –