2013-07-21 2 views
0

Cusparse를 사용하여 AX = B를 1440 번 (A는 수정 중이고 대각선 요소 만, B도 다름)으로 풀고 있습니다. 저는 핸들과 분석 객체를 한 번만 생성합니다.다중 스트림 CUSPARSE

저는 cusparseScrsilu0()을 사용하고 있습니다.

스트림을 사용하여이 작업을 수행하려고합니다. 한 핸들을 사용하여 여러 스트림을 만들었지 만 어떤 속도 향상도 얻지 못했습니다.

제발,이 문제를 도와주세요.

+2

최근에 CuSparse를 사용하여 많은 사람들이 1440 개의 희소 방정식을 풀어 냈습니다 ..... – talonmies

+0

예, [GPU의 LU 분해] (http://stackoverflow.com/questions/17721987/lu-factorization- on-gpu). – JackOLantern

답변

1

멀티 스트림 디자인으로 인해 CUDA 커널이 동시에 실행될 수 있습니다. 그러나 멀티 스트림이 항상 Concurrent Kernel Execution으로 이어지는 것은 아닙니다. 커널은 특정 사전 요청을 수행 할 때만 동의 할 수 있습니다. 가장 중요한 조건 중 하나는 각 커널이 하드웨어 리소스 (SM, 텍스처, 로컬 mem 등)의 작은 부분만을 차지한다는 것입니다. 따라서 문제의 크기가 충분히 크면 다른 커널이 동시에 실행될 수있는 추가 자원이 없습니다.

관련 문제