2016-10-26 4 views

답변

8

내가 본 가장 큰 Dask.distributed 클러스터

은 약 천 노드입니다. 우리는 이론적으로 더 크게 갈 수 있지만 엄청난 양은 아닙니다.

현재 한계는 스케줄러가 작업 당 200 마이크로 초의 오버 헤드를 발생 시킨다는 것입니다. 이것은 초당 약 5000 개의 작업으로 변환됩니다. 각 작업에 약 1 초가 걸린다면 스케줄러는 약 5000 코어를 포화 상태로 만들 수 있습니다.

이전에는 열린 파일 핸들 제한과 같은 다른 제한 사항이있었습니다. 이것들은 모두 우리가 본 규모 (1000 노드)까지 정리되었고 일반적으로 Linux 나 OSX에서는 괜찮습니다. Windows의 Dask 스케줄러는 수백 개의 노드에서 스케일링을 중지합니다 (Windows 작업자와 함께 Linux 스케줄러 사용 가능). 10k 노드까지 확장 할 때 다른 문제가 나타남을보고 놀라지 않을 것입니다.

즉, 백만 코어 Big Iron SuperComputer 또는 Google Scale에서 MPI 작업 부하를 대체하기 위해 Dask를 사용하지 않을 것입니다. 그렇지 않으면 당신은 아마 괜찮을거야.

+0

"Windows *의 Dask *는 수백 개의 노드에서 확장을 중지합니다.": ( – user2864740

+4

Windows 작업자와 함께 Linux 스케줄러를 사용할 수 있습니다. Windows 컴퓨터 중 하나에서 가상 컴퓨터를 시작할 수 있으면 괜찮을 것입니다. 수 천명에 이른다. – MRocklin

관련 문제