나는 각 차원에 대해 10-20.000까지 다양 할 수있는 알 수없는 크기의 행렬에 여전히 화를 내고 있습니다.CUDA - 블록을 너무 많이 선택하면 어떻게 될까요?
나는 CUDA sdk를보고 궁금해한다. 내가 너무 많은 블록을 선택하면 어떨까?
X 및 Y 차원에서 9999 x 9999 블록의 격자와 같은 것이 있습니다. 하드웨어에 이러한 블록을 모두 수용 할 수없는 SM이 있으면 커널에 문제가 있거나 성능이 저하됩니다.
블록/스레드의 크기가 너무 많이 달라질 수있는 방법을 모르겠다. 내 하드웨어가 지원하는 블록의 최대 개수를 사용하고 그 내부의 스레드를 모든 매트릭스에서 작동시키는 것으로 생각하고있다. 이것이 올바른 방법입니까?