SSE2 내장 함수가있는 8x16 비트 벡터에 대한 전치 함수를 쓰고 있습니다. 그 함수 (8x8x16bit 크기의 행렬)에 대한 8 가지 인수가 있기 때문에 참조로 전달할 수는 없습니다. 컴파일러에 의해 최적화 될 것인가 (이 __m128i 객체는 스택 대신 레지스터로 전달 될 것인가)?인라인 함수를 참조하여 __m128i 객체를 전달하면 이러한 객체가 스택으로 이동됩니까?
코드 스 니펫 :
inline void transpose (__m128i &a0, __m128i &a1, __m128i &a2, __m128i &a3,
__m128i &a4, __m128i &a5, __m128i &a6, __m128i &a7) {
....
}
나는 MSVC를 사용하지 않고있다. –
@ : 글라디올러스 : 그래, 괜찮은 컴파일러, 즉 gcc 나 인텔의 ICC를 사용하는 한 괜찮을 것이다. –