cuda

    0

    1답변

    나는 주 요소가 텐서 (tensors)에 대한 계산을 수행 할 수있는 계산 그래프의 노드 인 간단한 심화 학습 프레임 워크의 작동 CPU 기반 구현을 가지고있다. 이제 구현을 GPU로 확장해야합니다. 기존 클래스 구조를 사용하고 GPU로만 기능을 확장하고 싶습니다. 그래도 가능한지 확실하지 않습니다. 클래스의 대부분 같은 텐서에서 작동 반환 방법이 있습니다

    0

    1답변

    최근에 Cuda Toolkit v9를 설치했으며 설치를 검증하기 위해 Visual Studio 2017에서 일부 샘플 프로젝트를 실행하려고 시도했지만 Visual Studio를 통해 구축 할 Cuda 응용 프로그램. "Microsoft Windows 용 CUDA 설치 안내서"에서는 두 가지 응용 프로그램을 실행하는 것이 좋습니다. deviceQuery 및

    -1

    1답변

    OpenMPI를 사용하여 MPI 프로세스간에 데이터를 분산시키는 매우 큰 병렬 응용 프로그램을 작성하고 있습니다. "serial"과 같은 일부 직렬화 라이브러리에서 MPI를 사용하면 거대한 멀티 임베디드 객체를 전달하는 것이 매우 편리합니다. 내가 다 포함 된 구조에 의해 무슨 뜻인지의 힌트를 제공하기 위해, 나는 현재 같은 단순화 된 버전 함께 일하고 :

    1

    1답변

    내 질문의 기본 목표는 R에서 Matrix 패키지를 사용하여 행렬 연산의 최상의 성능을 얻는 방법입니다. 특히 저는 연산 (곱셈)을 병렬화하고 CUDA GPU에서 연산을 사용하여 희소 행렬로 작업하려고합니다. 밀도 및 스파 스 및 패턴 모두 삼각형, 대칭, 대각선 행렬 포함 행렬 클래스의 R cran 풍부한 계층 구조에서 Matrix 패키지의 문서에 따라

    1

    1답변

    -gencode가 사용될 때 컴파일 된 바이너리가 더 작아지는 이유는 무엇입니까? 내 GPU 기능이 3.0입니다. NVCC 옵션 : -gencode=arch=compute_30,code=sm_30 1,780,520 바이트 : 옵션 -gencode없이 1,719,080 바이트는 작아진다 -gencode=arch=compute_30,code=sm_30 -gen

    2

    1답변

    18 페이지의 표 2 하단의 각주 뒤에 나오는 의미를 알고 싶습니다. Volta whitepaper. 볼타 전임자 유사한 SM 당 2백56킬로바이트 레지스터를 보유하는 테이블이 나타내고 있지만, 공간이 개선 SIMT 모델의 일부를 형성 당 사용 스레드 프로그램 카운터 (PC)는 일반적 두 필요하다고 언급 스레드 당 슬롯을 등록하십시오. Volta에서 실행중

    -1

    1답변

    나는 cuda를 처음 사용하고 있으며 Eratosthenes의 체를 수행하는 데 사용하려고합니다. 코드는 1000000 이하의 소수 (primes)에서 작동합니다. 그 위에는 알 수없는 커널 실행 오류가 발생합니다. 이제는 너무 많은 블록이있는 표를 시작하려고하기 때문에 이것이라고 생각합니다. 그러나 블록을 1000으로 설정하면 모든 소수를 얻지 못합니다.

    0

    1답변

    나는 여기에있는 코드를 적용하려고합니다 : https://wiki.tiker.net/PyCuda/Examples/ThrustInterop ... cuda 스트림을 사용합니다. 가 (필자는 C++에 새로 온 것을 변명, 단지 CUDA와 몇 주 경험을하시기 바랍니다.) 내 주요 시도 및 부착 지점이 같은 NVCC 기능을 조정하는 라인을 따라왔다 그래서 수신 추

    0

    1답변

    CUDA 프로젝트는 2013 년 이후에 Visual Studio에서 -m32 (32 비트) 옵션으로 빌드하지 않습니다. 따라서 다음과 같이 NVCC 플래그에 -m64 플래그를 추가하려고 시도했습니다 : find_package(CUDA) ... set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -m64") ... 는하지만이 자세

    0

    1답변

    , 우리는 대기열 수 : 출시 (커널, 콜백) 이벤트 작업 (에 대기, 트리거) 메모리 작업 (복사, 설정, 연결) 그러나 에 대한 API 호출은 이러한 작업 중 하나를 dequeuing합니다. 이러한 종류의 작업 중 일부 또는 전부에 대해 동일한 효과를 얻는 방법이 있습니까? 참고 : 스트림을 삭제하는 것과 관련된 제안을 배제하지 않습니다. 출시를 들어