ptx

    3

    1답변

    gcc 7.1이 출시되면 이제 openmp 4.5 용 gcc를 구성하여 Nvidia PTX GPGPU로 오프로드 할 수 있습니다. 릴리스 노트에서 말하는 내용입니다 (대략). 내 질문에,이 구성을 활성화하기 위해 특별한 플래그가 있습니까? openmp 4.5를 컴파일하여 nvidia 장치를 타겟팅 할 수 있습니까?

    1

    1답변

    CUDA PTX에는 스레드의 워프 인덱스 인 %warpid을 보유하는 특수 레지스터가 있습니다. 이제 사양은 말합니다 : %warpid은 휘발성이고 읽을 때 순간 스레드 의 위치를 ​​반환하지만 그 값이 때문에 선점 다음 스레드의 재조정에, 예를 들어, 실행, 중 변경 될 수 하는 것으로. 음, 그 위치는 어디입니까? 블록 내의 위치가 아니어야합니다 (예

    0

    1답변

    CUDA 소스 파일은 sm_XX이 sm_20, sm_30로 대체 될 수있는 명령 clang -Xclang -I$LIBCLC/include/generic -I$LIBCLC/include/ptx -Dcl_clang_storage_class_specifiers -O3 cudaFile.cu -S -o ptxOutputFile.ptx --cuda-gpu-arch=s

    0

    1답변

    .cu 파일에 nvcc를 사용하여 .ptx 코드를 작성하려고합니다. 일부의 경우는 작동하고 일부 그것은 "파일을 찾을 수 없습니다"오류 발생 : 나는 make 을 실행했을 때 어쩌면 macair93278:matrixMulCUBLAS r8t$ cd ../matrixMulDrv/ macair93278:matrixMulDrv r8t$ ls Makefil

    0

    1답변

    gpu 전역 메모리의 캐시 동작을 측정하고 싶습니다. 아래에서 제가 설계 한 마이크로 벤치 마크입니다. 내가하고 싶은 일은 전역 메모리 주소 r_add0에서로드하여 공유 메모리 s_tvalue [0]에 저장하는 것입니다. 어떤 이유인지, 전역 ​​메모리에서 인라인 명령을 인라인 PTX 코드로 대체해야합니다. 그러나 i = *r_addr0; //asm("l

    0

    1답변

    쿠다 문서 섹션 1.2.3 Incorrect optimization는 말한다 : 컴파일러는 asm() 문이 출력 피연산자를 변경하는 제외하고 부작용이없는 것으로 간주합니다. asm 삭제하거나 PTX의 생성 중에 이동되지 않도록하려면 volatile 키워드, 예를 사용해야합니다 asm volatile ("mov.u32 %0, %%clock;" : "=r"(x

    0

    1답변

    question 에서 PTX는 다양한 아키텍처에서 이식 가능한 것으로 알려져 있습니다. 나는 이것이 이전 예 : sm_20에서 sm_30으로 진행될 수 있다고 믿는다. sm_20에서 sm_10으로 이동하는 특별한 사용 사례가 있습니다. 그래서 sm_20 타겟 용으로 컴파일 된 PTX로 sm_10 타겟 용 cubin과 같은 바이너리를 생성 할 수 있습니다.

    0

    1답변

    NVIDIA website에서 sm_10에 대한 지원이 제거 된 PTX ISA 버전에 대한 단서를 찾지 못했습니다. 내 실험에서, 나는 sm_10에 대한 지원이 제거 된 PTX ISA 4.1이라는 신념을 가지고있다. 또는 다른 의미에서 4.0은 sm_10을 지원하는 최신 PTX ISA 버전입니다. 이 올바른지?

    0

    1답변

    GTX760, CUDA가있는 Win7 x64 시스템에서 OpenCV 2.4.8의 GPU 모듈을 VS2010과 컴파일하려고합니다. NVCC를 : 5.0은 다음과 같은 오류가 각 루틴 구축 객체 후 나타나는 치명적인 오류 : '(-cubin) --cubin'옵션을 여러 GPU 코드 인스턴스이 무엇 용으로 컴파일 할 때 허용되지 않습니다 평균? 건물을 만들기 전

    1

    1답변

    CUDA SDK의 ptxjit 샘플을 GPU 장치와의 상호 작용을위한 기초로 사용하려고합니다. 계측 코드를 성공적으로 컴파일하고 장치가 CUDA 기능 2.0을 갖춘 Geforce GT440으로 PTX 모듈을로드하고 실행하도록 제어했습니다. CUDA 기능 5.0을 갖춘 Geforce 830M이 장착 된 랩탑 (bumblebee를 사용하는 노트북)에서 동일한