나는 cuda에서 프로그램을 작성 중이며 데이터 전송의 오버 헤드를 줄이려고합니다. 행렬 곱셈을 위해 cuBLAS 라이브러리를 사용하고 값이 0-255 인 30.000.000 숫자를 보내야합니다.CUDA 및 cuBLAS에서의 typecasting
지금 나는 최종 제품을 바이트로 맞출 수 있다고 생각하면 꽤 비싸게되는 부유물이되기를 바란다.
cuBLAS 라이브러리 또는 다른 고속 수학 라이브러리를 사용하는 동안이를 바이트로 보내고 수 동으로 타입 변환하는 방법이 있습니까? 아니면 gpu에 어떻게 든 플로트로 정렬하도록 지시할까요?