:호출 여러 커널, 글로벌 메모리 공연 - CUDA 나는 다음과 같은 방법으로 행렬에 작업 네 개의 CUDA 커널을
는convolution<<<>>>(A,B);
multiplybyElement1<<<>>>(B);
multiplybyElement2<<<>>>(A);
multiplybyElement3<<<>>>(C);
// A + B + C with CUBLAS' cublasSaxpy
는
모든 커널은 기본적으로 (제외 먼저 회선)는에 의해 매트릭스 각 요소 곱셈을 수행한다 고정 값은 상수 메모리에 하드 코드되어 있습니다 (속도를 높이기 위해).
나는
multiplyBbyX_AbyY_CbyZ<<<>>>(B,A,C)
같은 것을 호출하여 하나 하나에 이러한 커널에 가입해야 하는가? 그게 도움이되지 것입니다 아마 그래서
글로벌 메모리는 이미 장치에 있어야합니다,하지만 난 당신에 세 "multiplybyElement"커널을 병합하는 경우는 올바르게, 당신이 요구하는지 이해하면 나는
두 버전을 모두 테스트 해보고 더 나은 버전을 찾으실 수 있습니까? 어쨌든, 커널 호출을 통해 이미 메모리에있는 데이터를 재사용하고 있기 때문에 성능에 어떤 차이가 있을지는 의문입니다. – Tudor