Cusparse를 사용하여 AX = B를 1440 번 (A는 수정 중이고 대각선 요소 만, B도 다름)으로 풀고 있습니다. 저는 핸들과 분석 객체를 한 번만 생성합니다.다중 스트림 CUSPARSE
저는 cusparseScrsilu0()을 사용하고 있습니다.
스트림을 사용하여이 작업을 수행하려고합니다. 한 핸들을 사용하여 여러 스트림을 만들었지 만 어떤 속도 향상도 얻지 못했습니다.
제발,이 문제를 도와주세요.
Cusparse를 사용하여 AX = B를 1440 번 (A는 수정 중이고 대각선 요소 만, B도 다름)으로 풀고 있습니다. 저는 핸들과 분석 객체를 한 번만 생성합니다.다중 스트림 CUSPARSE
저는 cusparseScrsilu0()을 사용하고 있습니다.
스트림을 사용하여이 작업을 수행하려고합니다. 한 핸들을 사용하여 여러 스트림을 만들었지 만 어떤 속도 향상도 얻지 못했습니다.
제발,이 문제를 도와주세요.
멀티 스트림 디자인으로 인해 CUDA 커널이 동시에 실행될 수 있습니다. 그러나 멀티 스트림이 항상 Concurrent Kernel Execution으로 이어지는 것은 아닙니다. 커널은 특정 사전 요청을 수행 할 때만 동의 할 수 있습니다. 가장 중요한 조건 중 하나는 각 커널이 하드웨어 리소스 (SM, 텍스처, 로컬 mem 등)의 작은 부분만을 차지한다는 것입니다. 따라서 문제의 크기가 충분히 크면 다른 커널이 동시에 실행될 수있는 추가 자원이 없습니다.
최근에 CuSparse를 사용하여 많은 사람들이 1440 개의 희소 방정식을 풀어 냈습니다 ..... – talonmies
예, [GPU의 LU 분해] (http://stackoverflow.com/questions/17721987/lu-factorization- on-gpu). – JackOLantern