intrinsics

1열

1답변

이미지의 모든 픽셀에 대해 acos 메서드를 호출해야합니다. 저는 avx2를 사용하고 있습니다. intel C++ 컴파일러와 함께 제공되는 라이브러리와 별도로 acos에 _mm256 코드가 있습니까?

4열

1답변

AVX, AVX2 및 AVX512를 포함한 다양한 SIMD 명령어 세트에 대해 커널을 구현 한 프로덕션 코드가 있습니다. 이 코드는 ./configure --enable-proc=AVX CXXFLAGS="-mavx"과 같이 대상 시스템의 대상 시스템에서 컴파일 할 수 있습니다. 이것은 또한 AVX 내장 함수를 노출하는 Travis CI에서도 잘 작동합니다.

2열

1답변

gcc 헤더 오류 : '_mm256_set_m128d'가이 범위에서 선언되지 않았습니다.

gcc를 대신 사용하여 icpc 및 mkl 수학 라이브러리로 컴파일 된 큰 코드를 컴파일하려고합니다. 다음은 AVX가 필요한 코드입니다. #include <immintrin.h> #include <stdint.h> #include <math.h> . . _mm256_set_m128d( _mm256_extractf128_pd(t2, 0) + _mm

0열

1답변

_mm256_cvtss_f32가 XCode에 의해 인식되지 않습니다.

XCode 7.1에서 C 프로그램과 함께 SIMD 내장 함수를 사용하려고합니다. (참고로 C++ 프로그램이 아니라 C99 프로그램을 작성하고 있습니다.) 필자는 immintrin.h를 포함 시켰으며, 매우 잘 작동하는 내장 명령을 사용하여 몇 가지 기능을 작성했습니다. float cimpl_sum_m128(__m128 x){ float out;

2열

1답변

NEON 팩 벡터 비교 결과 비트 맵

다음과 같이 두 부동 소수점 피연산자를 비교 한 비교 결과가 있습니다. 즉 : 내가 비교 결과에 기초 할 필요하면 다음을 수행 할 필요가이 neon_gt_res = vcgtq_f32(temp1, temp2); if(neon_gt_res[0]) array[0] |= (unsigned char)0x01; if(neon_gt_res[1]) array[0] |

8열

2답변

3 진 논리 연산에 대한 진리표 감소, vpternlog

많은 논리 테이블 (7 개 이상)을 가지고 있으며 논리 공식을 단순화하는 도구 (예 : 논리 금요일 1)를 사용합니다. 나는 손으로 그것을 할 수 있었다. 그러나 그것은 너무 많이 범하는 경향이있다. 이 수식을 컴파일러 내장 함수 (예 : _mm_xor_epi32)로 변환하면 정상적으로 작동합니다. 질문 : vpternlog 나는 삼항 논리 연산을 만들 수

0열

1답변

SSE 내장 함수를 사용하는 크기 100 * 100의 행렬

int MAX_DIM = 100; float a[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16))); float b[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16))); float d[MAX_DIM][MAX_DIM]__attribute__ ((aligned(16)))

2열

1답변

'vector long long'의 가용성은 무엇입니까?

Power4 기기 인 이전 PowerMac G5에서 테스트를하고 있습니다. 빌드가 실패 : typedef __vector unsigned long long uint64x2_p8; 나는 문제가 나는 형식 정의를 사용할 수 있도록시기를 결정하는 데 : 때문에 $ make ... g++ -DNDEBUG -g2 -O3 -mcpu=power4 -maltive

0열

1답변

RenderScript 내장 함수의 입력 및 출력에 대해 동일한 할당이 사용됩니까?

ScriptIntrinsicBlur의 입력과 출력에 실제로 동일한 할당을 사용할 수 있습니다. 필터링되지 않은 할당에 관심이 없으므로이 방법은 다른 할당을 만들 필요가 없으므로 메모리가 더 좋습니다. 그러나 안전합니까? 나는 문서에서 아무것도 찾을 수 없었다. ScriptIntrinsicResize와 같은 다른 내장 함수는 출력 할당이 입력과 동일해서는 안

0열

2답변

는 SSE 벡터 M128 최대 플로트를 찾는

가 나는 M128의 최대 플로트를 반환 동등한 기능이 될 것입니다 무엇 _m128i int horizontal_max_Vec4i(__m128i x) { __m128i max1 = _mm_shuffle_epi32(x, _MM_SHUFFLE(0,0,3,2)); __m128i max2 = _mm_max_epi32(x,max1); __m