하위 버퍼 인 constant 인수를 사용하는 OpenCL (1.2) 커널이 있습니다. 이 커널을 실행할 때 부모 버퍼가 대신 사용 된 것처럼 보입니다. global const 인수를 사용하면 예상대로 작동합니다. Intel (Linux, beignet git) 및 nVidia (Linux, 367.44-3) 구현을 다른 컴퓨터에서 재현 할 수 있다는 것을
나는 다음과 같은 문제에 대한 조언을 요청하고있다 : 내가 (평)의 OpenCL과 GPU를 기반으로 무차별 알고리즘을 쓰고 연구 프로젝트하십시오. 지금 내가 가지고 할 (나는 JTR 밖에 알고) 단어 (양 = 1024 * 64) .I 패스와 버퍼의 둘레에 각각 채우고있다 파이썬에서 브 루트 포스 - 발전기 버퍼를 GPU 커널에 연결합니다. GPU는 버퍼의
저는 1 억 개 이상의 데이터 포인트를 실시간으로 히트 맵으로 필터링하고 렌더링하는 방법을 찾고 있습니다. (x, y) 좌표 외에 각 점에는 데이터 집합을 필터링하기 위해 사용자가 동적으로 선택할 수있는 고정 된 속성 집합 (int, date, bit 플래그)이 있습니다. GPU에서이 작업의 전체 또는 일부를 가속화 할 수 있습니까?
나는이 게시물 에서처럼 Python에서 병렬 BF 생성기를 구현했습니다! Parallelize brute force generation. 이 병렬 기술을 GPU에서 구현하고 싶습니다. GPU의 병렬 BF 생성기와 같아야합니다. 누군가 GPU에서 병렬 BF 생성기에 대한 몇 가지 코드 예제를 도와 줄 수 있습니까? 이 구현에서 나를 의심했다 온라인 예제를 찾
같은 문제를 다루는 스택 오버플로에 대해 몇 가지 질문을 보았지만 확실한 답변은 없습니다. 나는 내 자신의 질문들로 다시 물을 것이라고 생각했다. 모두는 당면한 주제와 관련이 있습니다. 따라서 호스트에서 openCL 장치로의 데이터 전송이 언제 발생하는지 알고 있습니까? clCreateBuffer() clSetKernelArg() clEnqueueNDRan
3x3 행렬과 360x360 행렬간에 행렬 곱셈을 수행하려고합니다. 작은 행렬 (3x3)은 큰 행렬의 첫 번째 (3x3) 블록으로 조작 될 것입니다. 그러므로 나는 더 작은 행렬을 일정하게 유지하고 그것을 더 큰 행렬 위로 밀어 넣고 싶다. 내 작은 행렬을 공유 메모리의 일부로 저장하고 큰 행렬을 전역으로 3x3로 나눌 수 있습니까? 호스트에서 직접 공유하
병합되지 않은 메모리 액세스를 병합 된 것으로 변환하는 간단한 방법이 있는지 궁금합니다. 의이 배열의 예를 보자 : dW[[w0,w1,w2][w3,w4,w5][w6,w7][w8,w9]]
지금, 나는 블록 0 액세스의 스레드 0 dW[0] 다음 블록 0 액세스 dw[1] 1 스레드 경우, 즉 글로벌 메모리에 합체 액세스 있다는 것을 알고있다. 문제는 두
나는 지금 문제에 직면하고 있으며 올바른 해결책이 무엇인지 잘 모르겠습니다. 나는 그것을 설명하려고 노력할 것이고 누군가 나를 위해 좋은 해결책을 가지기를 바란다 : 나는 두 개의 큰 데이터 배열을 가지고있다. 50^3 ~ 150^3 데이터 샘플 (대개 50과 100 사이의 희귀 최악의 경우 시나리오 150)을 사용하여 탐색하는 대상입니다. 모든 샘플에 대
사람들이 부동 소수점 텍스처에 대해 많이 논하는 것 같지 않습니다. 몇 가지 계산을 수행 한 다음 그 결과를 다른 표면 쉐이더 (특정 변형을 얻기 위해)에 전달했습니다. 멋지다. 쉐이더에서 결과를 소화하면 CPU가 그 값을 가져와야한다. 그래서 난 부동 소수점 텍스처를 채우는 Graphics.Blit를 호출 한 직후 결과와 함께 float [] 배열을 얻습