크기가 A × N이고 N × B 인 두 행렬 간의 GEMM 스타일 해밍 거리를 계산하는 데 최적화 된 CUDA 커널을 알고있는 사람이 있습니까? 문제는 GEMM과 거의 동일하지만 각 벡터 요소를 곱하고 합산하는 대신 각 벡터 {1 ... N}에 대한 합계 (a_n! = b_n)를 계산합니다.최적화 된 CUDA 행렬 해밍 거리
내 자신의 글을 쓰기 전에이 문제가 비교적 일반적이기 때문에 확인하고 싶었지만 아직 코드를 찾지 못했습니다. 수정할 코드에 대한 제안도 우수 할 것입니다.
는 편집 :
아래 kangshiyin의 제안과 더불어, 나는 CUDA C 프로그래밍 가이드의 기본 공유 메모리 행렬 곱셈 예를 넘어서는 단계를 이해하는 데 매우 도움이 될 this walk-through of an optimized SGEMM implementation을 발견했다.