OpenCL을 사용하여 솔루션을 구현 중입니다. 예를 들어 GPU에 한 번 복사 할 많은 양의 데이터가 있고 다음과 같이 많은 커널 프로세스가 필요합니다. 일괄 처리하고 특정 출력 버퍼에 결과를 저장합니다.OpenCL Copy-Once 많이 공유하십시오.
실제 질문은 어떤 방법으로 더 빠릅니까? 동일한 커널을 (동일한 문맥에서) 처리하기 전에 필요한 배열의 일부분을 각 커널에 대기 시키거나 동일한 배열을 전달해야합니다. 동일한 주소 공간을 가지며 각각의 커널을 매핑 할 수 있기 때문입니다 동시에 배열. 물론 배열은 읽기 전용이지만 커널을 실행할 때마다 변하지 않기 때문에 일정하지 않습니다 ... (그래서 전역 메모리 버퍼를 사용하여 캐시 할 수 있습니다).
또한 두 번째 방법이 실제로 더 빠르면 실제로 구현할 수있는 방법을 찾지 못했지만 (아직 검색 중이지만 :) :).
건배.
쿠다 태그를 제거 –
예, 죄송합니다. – jtimz