GPGPU에서 영구 스레드를 사용하는 것과 디바이스 측 엔벌 로프/네 스티드 병렬 처리를 적용 할 수있는 경우 여전히 이점이 있습니까?지속적 스레드 대 장치 측 큐 삽입/중첩 병렬 처리
필자는 이전 성능을 얻기 위해 구형 하드웨어에 지속적인 스레드가 필요한 몇 가지 오래된 문서를 읽었으며 장치 측 엔큐/네 스티드 병렬 처리를 사용하면 관련 기술과 관련성이 없는지 확실하지 않습니다.
자식 작업이 부모로부터 시작된 후에 완전히 독립적 인 경우 영구 스레드가 계속 가치가 있다고 생각합니까?
이것은 내가 stackoverflow에서 질문 한 적이있는 가장 유익한 답변입니다! 이상하게도 가장 빠르다. 데이터 캐싱을 최적화하는 데 도움이되는 요점과 예가 매우 유용했습니다. 실행 사이에 register/shared-mem 상태를 어떻게 든 유지할 수있는 nVidia의 Pascal CUDA 8 멀티 블록 그룹을 사용하여 상황이 전혀 변경되지 않는지 알고 있습니까? 정말 고맙습니다. – iam
Pascal/CUDA 8은 하나의 커널 실행에서 다음 커널 실행까지 온칩 레지스터 또는 공유 메모리의 상태를 유지할 수 있다는 것을 알지 못합니다. 내가 아는 그러한 시설이 존재하지 않습니다. 그 주장에 대한 언급을 인용 할 수 있습니까? –
임의로 인터넷을 검색 한 결과이 문서의 끝 부분에 https://asc.llnl.gov/DOE-COE-Mtg-2016/talks/1-10_NVIDIA.pdf에 대한 언급이있었습니다. 하지만 정확히 어떻게 작동하는지 분명하지 않습니다. – iam