cuda

0열

1답변

나는 주 요소가 텐서 (tensors)에 대한 계산을 수행 할 수있는 계산 그래프의 노드 인 간단한 심화 학습 프레임 워크의 작동 CPU 기반 구현을 가지고있다. 이제 구현을 GPU로 확장해야합니다. 기존 클래스 구조를 사용하고 GPU로만 기능을 확장하고 싶습니다. 그래도 가능한지 확실하지 않습니다. 클래스의 대부분 같은 텐서에서 작동 반환 방법이 있습니다

0열

1답변

Visual Studio에서 CUDA 9 응용 프로그램 빌드하기 2017

최근에 Cuda Toolkit v9를 설치했으며 설치를 검증하기 위해 Visual Studio 2017에서 일부 샘플 프로젝트를 실행하려고 시도했지만 Visual Studio를 통해 구축 할 Cuda 응용 프로그램. "Microsoft Windows 용 CUDA 설치 안내서"에서는 두 가지 응용 프로그램을 실행하는 것이 좋습니다. deviceQuery 및

-1열

1답변

임베디드 객체/구조체가 포함 된 cudaMalloc/cudaMemcpy

OpenMPI를 사용하여 MPI 프로세스간에 데이터를 분산시키는 매우 큰 병렬 응용 프로그램을 작성하고 있습니다. "serial"과 같은 일부 직렬화 라이브러리에서 MPI를 사용하면 거대한 멀티 임베디드 객체를 전달하는 것이 매우 편리합니다. 내가 다 포함 된 구조에 의해 무슨 뜻인지의 힌트를 제공하기 위해, 나는 현재 같은 단순화 된 버전 함께 일하고 :

1열

1답변

R의 행렬 연산 : 병렬화, 희소 연산, GPU 계산

내 질문의 기본 목표는 R에서 Matrix 패키지를 사용하여 행렬 연산의 최상의 성능을 얻는 방법입니다. 특히 저는 연산 (곱셈)을 병렬화하고 CUDA GPU에서 연산을 사용하여 희소 행렬로 작업하려고합니다. 밀도 및 스파 스 및 패턴 모두 삼각형, 대칭, 대각선 행렬 포함 행렬 클래스의 R cran 풍부한 계층 구조에서 Matrix 패키지의 문서에 따라

1열

1답변

-gencode가 사용될 때 컴파일 된 바이너리가 더 작아지는 이유는 무엇입니까?

-gencode가 사용될 때 컴파일 된 바이너리가 더 작아지는 이유는 무엇입니까? 내 GPU 기능이 3.0입니다. NVCC 옵션 : -gencode=arch=compute_30,code=sm_30 1,780,520 바이트 : 옵션 -gencode없이 1,719,080 바이트는 작아진다 -gencode=arch=compute_30,code=sm_30 -gen

2열

1답변

볼타의 스레드 별 프로그램 카운터의 레지스터 사용량

18 페이지의 표 2 하단의 각주 뒤에 나오는 의미를 알고 싶습니다. Volta whitepaper. 볼타 전임자 유사한 SM 당 2백56킬로바이트 레지스터를 보유하는 테이블이 나타내고 있지만, 공간이 개선 SIMT 모델의 일부를 형성 당 사용 스레드 프로그램 카운터 (PC)는 일반적 두 필요하다고 언급 스레드 당 슬롯을 등록하십시오. Volta에서 실행중

-1열

1답변

Eratosthenes의 Cuda Sieve가 1000000보다 큰 경우

나는 cuda를 처음 사용하고 있으며 Eratosthenes의 체를 수행하는 데 사용하려고합니다. 코드는 1000000 이하의 소수 (primes)에서 작동합니다. 그 위에는 알 수없는 커널 실행 오류가 발생합니다. 이제는 너무 많은 블록이있는 표를 시작하려고하기 때문에 이것이라고 생각합니다. 그러나 블록을 1000으로 설정하면 모든 소수를 얻지 못합니다.

0열

1답변

스트림을 사용하여 추력을 실행하는 PyCuda

나는 여기에있는 코드를 적용하려고합니다 : https://wiki.tiker.net/PyCuda/Examples/ThrustInterop ... cuda 스트림을 사용합니다. 가 (필자는 C++에 새로 온 것을 변명, 단지 CUDA와 몇 주 경험을하시기 바랍니다.) 내 주요 시도 및 부착 지점이 같은 NVCC 기능을 조정하는 라인을 따라왔다 그래서 수신 추

0열

1답변

이미 설정되어있는 경우 CMake에서 플래그 값을 변경하십시오.

CUDA 프로젝트는 2013 년 이후에 Visual Studio에서 -m32 (32 비트) 옵션으로 빌드하지 않습니다. 따라서 다음과 같이 NVCC 플래그에 -m64 플래그를 추가하려고 시도했습니다 : find_package(CUDA) ... set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -m64") ... 는하지만이 자세

0열

1답변

CUDA 스트림에서 어떻게 든 작업을 큐에서 빼낼 수 있습니까? CUDA 스트림에

, 우리는 대기열 수 : 출시 (커널, 콜백) 이벤트 작업 (에 대기, 트리거) 메모리 작업 (복사, 설정, 연결) 그러나 에 대한 API 호출은 이러한 작업 중 하나를 dequeuing합니다. 이러한 종류의 작업 중 일부 또는 전부에 대해 동일한 효과를 얻는 방법이 있습니까? 참고 : 스트림을 삭제하는 것과 관련된 제안을 배제하지 않습니다. 출시를 들어