나는 특별한 문제가있다.batchedgemm 소스 코드?
나는 MacBook에서 CUDA 4.1을 사용하여 개발 한 연구 코드가 있으며, 특히 batchedgemm
을 사용하고 있습니다. 이제 다른 대학에서 대출 한 gpu 클러스터에서 실행해야합니다.
내 문제는 클러스터에 CUDA 4.0 만 설치되어 있고 빠르게 업그레이드하는 것을 꺼려한다는 것입니다.
어딘가에 batchedgemm 소스를 가져 와서 4.0 이하에서 컴파일 할 수 있다면 누구에게 알려주고 있습니까?
일괄 처리 곱셈을 수행하기 위해 자체 커널을 작성했지만 라이브러리보다 느린 약 10 배 정도를 수행합니다. 대신 발가락 대신에 위대한 남성의 어깨에 서고 싶습니다.