동시 복사를 실행할 때 커널 작업 :
dataCopy 작업의 2 배인 커널 런타임을 갖고 있다면 커널 당 2 개의 복사본을 얻을 수 있습니까?
내가 보는 스트림 예는 1 : 1 관계를 보여줍니다. (복사 시간 = 커널 실행 시간.) 뭔가 다른 것이있을 때 어떤 일이 발생하는지 궁금합니다. 매번 커널을 실행할 때 항상 한 번의 복사 작업 (최대)이 있습니까? 또는 복사 작업이 커널 시작과 독립적으로 실행됩니까? 즉, 실행시 & 복사 시간이 그렇게되면 모든 커널 시작에 대해 5 개의 복사 작업을 완료 할 수 있습니다.
가 (. 나는 커널 시작하기 전에 큐에 얼마나 많은 복사 작업을 알아 내려고 노력하고있어)병렬 : 짧은 복사본, 긴 커널
하나 하나에 : (시간을 복사 = 커널 실행 시간)
< --stream1Copy -> < --stream2Copy ->
.............................. < -stream1 커널 ->
2 대 1 : (복사 시간 = 1/2 커널 실행 시간)
< -stream1 복사 -> < -stream2 복사 -> < -stream3 복사 ->
............................ < ---------- stream1Kernel --------- --->
비주얼 프로파일 러에 대한 필자의 이해는 Windows 환경에서만 가능합니다. nonWin env와 비슷한 도구가 있습니까? – Doug
예, 리눅스 환경에서 'nvvp' 명령을 사용하여 시각적 프로파일 러를 실행할 수 있습니다. 또는 CUDA 5가있는 경우 nsight Eclipse Edition 도구에서'nsight' 명령을 실행하여 시각적 프로파일 러에 액세스 할 수 있습니다. 당신은 내가 내 대답에 링크 된 문서, 특히 [이 섹션] (http://docs.nvidia.com/cuda/profiler-users-guide/index.html#visual-profiler)에서 살펴 봐야 할 수 있습니다. –