0
내 커널 읽기 및 쓰기를 전역 메모리에서/전역 메모리로 검사하는 방법이 있습니까? 나는 커널이 더 나은 성능을 얻기 위해 효율적으로 읽고 쓸 수있는 방법을 찾고있다.CUDA에서 합쳐진 읽기/쓰기
감사
내 커널 읽기 및 쓰기를 전역 메모리에서/전역 메모리로 검사하는 방법이 있습니까? 나는 커널이 더 나은 성능을 얻기 위해 효율적으로 읽고 쓸 수있는 방법을 찾고있다.CUDA에서 합쳐진 읽기/쓰기
감사
같은 gld_efficiency 및 gst_efficiency 통계는 당신에게 합체 글로벌로드와 저장의 비율의 직접적인 측정을 줄 것이다
nvprof 같은 프로파일 러를 사용합니다. 예 : Linux의 경우 :nvprof --metrics gld_efficiency,gst_efficiency ./my_app