gpgpu

0열

1답변

OpenACC - 기기가 CUDA 작업을 수행하는 중 바쁜 지 확인하는 방법은 무엇입니까?

나는 CUDA 기반 코드를 가지고 있으며 코드 일부에 OpenACC를 통합하고자합니다. 하지만 OpenACC 코드로 병렬 처리하려고하는 기능은 CUDA 호출에 의해 제어되며 때때로 그렇지 않습니다. 제 질문은 어떻게 OpenACC 라이브러리에 문의하여 장치가 사용 중인지 여부를 확인할 수 있습니다. API 호출이 있습니까? 참고 : 저는 완전히 CUDA에

0열

1답변

최대 CUDA 리소스 설정

CUDA 애플리케이션의 최대 GPU 리소스를 설정할 수 있는지 궁금합니다. 예를 들어, 4GB GPU를 가지고 있지만 주어진 애플리케이션이 2GB 만 액세스 할 수 있도록하고 싶다면 더 많은 할당을 시도하면 실패합니다. 이상적으로 이것은 프로세스 레벨 또는 CUDA 컨텍스트 레벨에서 설정 될 수 있습니다.

3열

1답변

opencl에서 양수와 음수 무한을 구별

opencl에서 양수 또는 음수 무한대를 구체적으로 테스트하려면 어떻게해야합니까? 참조 카드에서 isinf()에 대한 옵션 만 볼 수 있습니다. isinf()는 두 옵션을 구별하지 않습니다.

1열

1답변

반복적 인 문제에 대한 OpenCL의 최선의 범용 컴퓨팅 관행은 무엇입니까?

대용량 데이터 집합에 대해 많은 연산을 필요로하는 프로그램이 있고 각 데이터 요소에 대한 연산이 독립적 일 때 OpenCL은이를 더 빠르게 만드는 좋은 선택 일 수 있습니다. 여기 while(function(b,c)!=TRUE) { [X,Y] = function1(BigData); M = functionA(X); b = func

2열

1답변

C++ AMP는

내가 C++ 코드 다음 한 느린 float Neuron::feedForward(std::vector<Neuron>& previousLayer){ float sum=0.0f; extent<1> e((int)previousLayer.size()); std::vector<float> ops(previousLayer.size()); for (int i =

0열

1답변

행렬 벡터 제품 CUDA 성능

이전 주제에서 cuda 행렬 벡터 제품에 대한 코드를 찾았습니다. Matrix-vector multiplication in CUDA: benchmarking & performance 저자가 dA (매트릭스)에 공유 메모리를 사용하지 않은 이유는 무엇입니까? 그런 다음 열 주 순서가 행 주 순서보다 빠릅니다. 여기 코드입니다 : template<typenam

0열

2답변

OpenCL - for for 루프 실행

OpenCL 커널의 for 루프는 경계가 동적 인 경우 장치에서 실행됩니다. 즉, 각 작업 항목에 대해 for 루프가 다른 시간에 실행될 때 어떻게됩니까? AFAIK, 커널은 명령어 세트 (또는 더 나은 스트림 스트림)입니다. GPU 장치는 각각 여러 계산 단위 (스트림 프로세서 -SP)를 포함하는 독립적 인 계산 단위 (스트림 다중 프로세서 - SM)로

0열

1답변

CUDA Warp 실행 효율성

각 커널에 대해 warp_execution_efficiency를 얻을 수 있지만 프로그램의 warp_execution_efficiency를 어떻게 얻을 수 있습니까?

1열

2답변

NVRTC 및 __device__ 함수

런타임 컴파일을 활용하여 시뮬레이터를 최적화하려고합니다. 내 코드는 꽤 길고 복잡하지만 특정 전역 메모리 액세스를 제거하여 성능을 크게 향상시킬 수있는 특정 __device__ 함수를 식별했습니다. CUDA는 기존 기능을 "오버라이드"하기 위해 __device__ 기능 (__global__ 아님)의 동적 컴파일 및 연결을 허용합니까?

2열

2답변

Pretrained Inception-v3 네트워크로 이미지 묶음을 분류하는 방법이 있습니까?

TensorFlow로 이미지를 분류하려고합니다. 나는 내 GPU에 분류를 계산하고 싶습니다 때문에, 한 번에 여러 이미지를 분류하기위한 솔루션을 찾고 있어요, 지금 predictions = sess.run(softmax_tensor, {'DecodeJpeg/contents:0': image_data}) 하고, 다음 example code on GitHu