최신 NVIDIA GPU는 32 비트 레지스터에 설정된 비트 수를 계산하는 __popc (x) 명령어를 지원합니다.팝콘?
99 % OpenCL은 공급 업체 커널 확장이 아니면 인라인 어셈블러를 지원하지 않습니다.
1) AMD 하드웨어가 아직 이것을 지원합니까? (나는 그것을 모르고있다).
2) OS X 및 Linux의 경우, 컴파일 할 NVIDIA 중간 언어를 어떻게 삽입하여 삽입 할 수 있습니까?
PyOpenCL에서 PTX "바이너리"를 덤프하는 방법을 알았습니다. 이제는 수정 사항을 다시 삽입하는 방법을 알아야합니다. 본인이 아는
#create the program
self.program = cl.Program(self.ctx, fstr).build()
print self.program.BINARIES[0]