gpgpu

1열

1답변

내 커널이 가장 많은 시간을 보내는 곳을 찾아야합니다. 누군가 Mac OS X (Darwin)에서 그것을 할 수있는 방법이 있는지 말할 수 있습니까? 이것은 전에 질문되었습니다 : Is there an opencl profiler for mac os X 10.8? 대답은 OpenCL의 inbuilt 프로파일 러를 사용하여 프로파일 링하는 방법을 설명하지만,

1열

1답변

문자열 연결을위한 OpenCL 커널

GPU를 사용하여 문자열에 대한 작업을 수행하는 데 필요한 많은 문헌이나 예제를 찾지 못했습니다. 특히, 나는 2 개의 문자열 배열을 가지고 있으며, 두 번째 배열의 요소를 첫 번째 배열의 해당 요소에 연결해야합니다. 나는 이것을 위해 커널을 작성하는 방법을 알 수 없다. C에 연결의 예는 다음과 같습니다 #include <stdio.h> void co

3열

1답변

cudaDeviceSynchronize()는 현재 CUDA 컨텍스트 또는 모든 컨텍스트에서만 완료 될 때까지 대기합니까?

나는 CUDA 6.5 012 및 4 x GPUs Kepler을 사용합니다. 나는 다중 스레드, CUDA 런타임 API를 사용하고 (OpenMP를 사용하여) 다른 CPU 스레드의 CUDA 컨텍스트에 액세스하지만 실제로는 관계가 없습니다. 내가 cudaDeviceSynchronize();이 최신 전화 cudaSetDevice()에 의해 선택되는 경우에만 현재

1열

1답변

GPGPU를 사용하여로드 및 비트 연산을 효율적으로 수행하는 방법은 무엇입니까?

GPU 공유 메모리에 128 ~ 256 바이트 길이의 배열을로드해야합니다. 비트 작업을 효율적으로 수행하면서 전역 메모리 액세스를 최소화하려고합니다. 설명해 드리겠습니다. 전역 메모리에 256 바이트 배열이로드되어 있고 커널 코드 시작 부분에 256 바이트를 모두 공유 메모리에로드하려고합니다. 그런 다음 각 바이트에서 비트 연산을 수행해야하지만이 연산은 두

2열

1답변

cudaMemcpyFromSymbol

내가 사양에 따라, "글로벌 메모리에"존재하는 __device__ 변수에 커널 함수를 적용하려고 커널 기능 vector_projection 같이 my_helper.cuh에 정의되어 #include <stdio.h> #include "sys_data.h" #include "my_helper.cuh" #include "helper_cuda.h" #inc

0열

1답변

CGLGetDeviceFromGLRenderer on 10.9

Mac Pro에서는 화면에 연결된 GPU의 cl_device_id를 찾아야합니다. CGLGetDeviceFromGLRenderer는 OpenGL 렌더러의 가상 화면 번호를 동등한 OpenCL 장치 ID로 변환하기위한 API로 언급됩니다 (WWDC 2014, 세션 601에서). CGLGetDeviceFromGLRenderer는 OS X 10 (요세미티)에서만

1열

1답변

OpenACC 합 감소 출력은 각 실행에 합계를 증가

이유는 무엇입니까 다음 코드를 모든 실행시 #include <iostream> int main(int argc, char const *argv[]) { int sum = 0; int *array; array = new int [100]; #pragma acc enter data create(array[0:100],

0열

1답변

GPGPU 데이터베이스 엔진을 실행할 때 'thrust :: system :: system_error'오류가 발생했습니다.

alenka (https://github.com/antonmks/Alenka)를 실행하여 사용자 정의 테이블 test.tbl을로드하고 select 쿼리를 실행하려고합니다. 3 또는 4 행으로 잘 작동합니다. 그러나 6 또는 10 행을 넘어 항목 수를 늘리면 (./ alenka load_test.sql)로드하는 동안 오류를 표시하지 않지만 쿼리 (./ ale

2열

1답변

OpenCL에서 합계를 줄이기위한 최적의 작업 그룹 크기

다음 줄을 사용하여 합계를 줄입니다. __kernel void reduce(__global float* input, __global float* output, __local float* sdata) { // load shared mem unsigned int tid = get_local_id(0); unsigned int bid

2열

2답변

CPU의 여러 코어간에 GPU를 공유 할 수 있습니까?

각 CPU 코어가 여러 매트릭스 곱셈을 수행하는 응용 프로그램이 있습니다. 행렬 곱셈들의 수는 10 초 정도 일 수있다. 이러한 곱셈은 서로 독립적이기 때문에 코어는 GPU로 이들을 오프로드 할 수 있습니다. 자, MPI 프로그램에서 사용되는 코어가 여러 개 있습니다. 그래서, 제 질문은 이러한 다중 코어간에 GPU를 공유하는 것이 가능하기 때문에 각 코어