gpgpu

0열

1답변

하위 버퍼 인 constant 인수를 사용하는 OpenCL (1.2) 커널이 있습니다. 이 커널을 실행할 때 부모 버퍼가 대신 사용 된 것처럼 보입니다. global const 인수를 사용하면 예상대로 작동합니다. Intel (Linux, beignet git) 및 nVidia (Linux, 367.44-3) 구현을 다른 컴퓨터에서 재현 할 수 있다는 것을

-1열

1답변

GPU 브 루트 포스 구현

나는 다음과 같은 문제에 대한 조언을 요청하고있다 : 내가 (평)의 OpenCL과 GPU를 기반으로 무차별 알고리즘을 쓰고 연구 프로젝트하십시오. 지금 내가 가지고 할 (나는 JTR 밖에 알고) 단어 (양 = 1024 * 64) .I 패스와 버퍼의 둘레에 각각 채우고있다 파이썬에서 브 루트 포스 - 발전기 버퍼를 GPU 커널에 연결합니다. GPU는 버퍼의

0열

2답변

GPU의면 검색 및 히트 맵 생성

저는 1 억 개 이상의 데이터 포인트를 실시간으로 히트 맵으로 필터링하고 렌더링하는 방법을 찾고 있습니다. (x, y) 좌표 외에 각 점에는 데이터 집합을 필터링하기 위해 사용자가 동적으로 선택할 수있는 고정 된 속성 집합 (int, date, bit 플래그)이 있습니다. GPU에서이 작업의 전체 또는 일부를 가속화 할 수 있습니까?

1열

1답변

병렬 Brute Froce 알고리즘 GPU

나는이 게시물 에서처럼 Python에서 병렬 BF 생성기를 구현했습니다! Parallelize brute force generation. 이 병렬 기술을 GPU에서 구현하고 싶습니다. GPU의 병렬 BF 생성기와 같아야합니다. 누군가 GPU에서 병렬 BF 생성기에 대한 몇 가지 코드 예제를 도와 줄 수 있습니까? 이 구현에서 나를 의심했다 온라인 예제를 찾

2열

1답변

언제 OpenCL 데이터 전송이 발생합니까?

같은 문제를 다루는 스택 오버플로에 대해 몇 가지 질문을 보았지만 확실한 답변은 없습니다. 나는 내 자신의 질문들로 다시 물을 것이라고 생각했다. 모두는 당면한 주제와 관련이 있습니다. 따라서 호스트에서 openCL 장치로의 데이터 전송이 언제 발생하는지 알고 있습니까? clCreateBuffer() clSetKernelArg() clEnqueueNDRan

0열

1답변

cuda : 공유 및 전역을 사용하는 행렬 곱셈

3x3 행렬과 360x360 행렬간에 행렬 곱셈을 수행하려고합니다. 작은 행렬 (3x3)은 큰 행렬의 첫 번째 (3x3) 블록으로 조작 될 것입니다. 그러므로 나는 더 작은 행렬을 일정하게 유지하고 그것을 더 큰 행렬 위로 밀어 넣고 싶다. 내 작은 행렬을 공유 메모리의 일부로 저장하고 큰 행렬을 전역으로 3x3로 나눌 수 있습니까? 호스트에서 직접 공유하

1열

1답변

병합되지 않은 액세스에서 병합 된 메모리 액세스 CUDA

병합되지 않은 메모리 액세스를 병합 된 것으로 변환하는 간단한 방법이 있는지 궁금합니다. 의이 배열의 예를 보자 : dW[[w0,w1,w2][w3,w4,w5][w6,w7][w8,w9]] 지금, 나는 블록 0 액세스의 스레드 0 dW[0] 다음 블록 0 액세스 dw[1] 1 스레드 경우, 즉 글로벌 메모리에 합체 액세스 있다는 것을 알고있다. 문제는 두

0열

1답변

가장 적합한 검색 알고리즘은 무엇입니까?

나는 지금 문제에 직면하고 있으며 올바른 해결책이 무엇인지 잘 모르겠습니다. 나는 그것을 설명하려고 노력할 것이고 누군가 나를 위해 좋은 해결책을 가지기를 바란다 : 나는 두 개의 큰 데이터 배열을 가지고있다. 50^3 ~ 150^3 데이터 샘플 (대개 50과 100 사이의 희귀 최악의 경우 시나리오 150)을 사용하여 탐색하는 대상입니다. 모든 샘플에 대

-1열

1답변

워프의 스레드 수가 32보다 작은 경우 어떻게됩니까?

워프의 스레드 수가 32 이상일 수 있음을 읽었습니다. 그게 왜? 스레드 수가 32 개보다 적 으면 리소스가 충분히 활용되지 못하거나 메모리 대기 시간을 허용하지 못할 것입니다.

1열

1답변

Unity 3D에서 RGBAFloat 텍스처의 부동 소수점 값을 읽음

사람들이 부동 소수점 텍스처에 대해 많이 논하는 것 같지 않습니다. 몇 가지 계산을 수행 한 다음 그 결과를 다른 표면 쉐이더 (특정 변형을 얻기 위해)에 전달했습니다. 멋지다. 쉐이더에서 결과를 소화하면 CPU가 그 값을 가져와야한다. 그래서 난 부동 소수점 텍스처를 채우는 Graphics.Blit를 호출 한 직후 결과와 함께 float [] 배열을 얻습