simd

6열

1답변

AVX2, 효율적으로 256 비트 레지스터의 짝수 인덱스에 4 개의 정수를로드하고 홀수 인덱스에 복사하는 방법?

인덱스 I0, I1, I2, I3을 포함하는 정렬 된 정수 배열을 메모리에 가지고 있습니다. 내 목표는 I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1을 포함하는 __m256i 레지스터로 가져 오는 것입니다. 어려운 부분은 I0, I0으로 256 비트 레지스터로 가져옵니다. 0, 1, 0, 1, 0, 1을 포함하는 레지스

1열

1답변

SSE 내장 함수를 사용하는 함수 수정

벡터화에서 속도를 높이기 위해 SSE를 사용하여 sqrt(i + sqrt(i + sqrt(i + ...))) 라디칼의 근사값을 계산하려고합니다. (또한 SIMD 제곱근 함수는 약 4.7x보다 빠르게 실행됩니다. 본래 FPU 제곱근 함수). 그러나 벡터화 된 버전에서 동일한 기능을 사용하는 데 문제가 있습니다. 나는 잘못된 값을 얻고 난 내 원래 기능이 있는

1열

1답변

알고리즘에 대한 바이트 당 측정 사이클

C에서 http://primates.ae/이라는 PRIMATEs 암호의 비트 분할 구현을 구현했습니다.이 코드를 SIMD 프로그래밍을 사용하여 만들었으므로 코드에서 AVX2 명령어 세트를 사용합니다. 현재 내 구현이 얼마나 효과적인지 정확하게 측정하려고 시도하고 있지만 실제로 현재 숫자를 신뢰하지는 않습니다. 현재의 숫자로 볼 때 바이트 당 약 200 사이

-1열

1답변

Sandybridge 및 IvyBridge의 sse 및 avx 성능

SandyBridge 프로세서 (i7-3820)에서 일련의 응용 프로그램을 벤치마킹합니다. 벤치 마크는 두 가지 버전으로 구성됩니다. 이 두 버전은 첫 번째 버전이 sse/sse2 인 텐트를 사용하고 두 번째 버전이 avx 인트 린직을 사용하는 유일한 차이점과 동일한 코드를 포함합니다. 내가 64 또는 86에 하나의 SSE instrinsics와 버전을 컴

-1열

1답변

바이트 및 ushort 배열을 추가하는 .NET SIMD

short 형식의 대상 배열에 추가해야하는 긴 바이트 배열이 있습니다. 이 솔루션은 여기에서 찾을 수 있습니다 :이 명령 (추가을위한 2 개의 8 요소 짧은 배열에 하나의 16 요소 바이트 배열을 풀기에 필요한 ) "를 풀고"의 지원이 부족 managed SIMD 을 사용하여이 작업을 수행하려고 SEE byte + short. . 여기 지원 연산 관리 SI

0열

1답변

SSE를 사용하여 행렬 곱셈

나는 알고리즘의 시간을 "일반적인"것과 비교해야하기 때문에 SIMD를 사용하여 2 행렬을 곱하는 예제를 얻으려고합니다. 여기 내가 왜 Efficient 4x4 matrix multiplication (C vs assembly)을 시도했는지입니다. *** stack smashing detected ***: ./prueba terminated Aborted

1열

1답변

AVX float4/double4 struct

float4/double4 구조체의 AVX-256/512 코드에서 기본 작동 *, +, /, -을 벡터 오버로드하여 벡터에서 빠른 성능 향상을 얻으려는 스칼라 등의 배율을 찾고 있습니다. float4/double4를 사용하여 작성된 코드에서의 연산. OpenCL은 이러한 데이터 유형을 intrinsics로 가지고 있지만 XeonPhi에서 실행되는 C++ 코

0열

1답변

임의 매트릭스 또는 어레이 스위프트

의 크기 I 같은 NumPy와를 사용 파이썬는 M × N 행렬을 생성 익숙 : 스위프트에서 In [1]: import numpy as np In [2]: np.zeros((10,5)) Out[2]: array([[ 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0.

9열

1답변

모든 64 비트 인텔 아키텍처가 SSSE3/SSE4.1/SSE4.2 명령어를 지원합니까?

웹 및 intel Software manual으로 검색했습니다. 그러나 모든 인텔 64 아키텍처가 SSSE3까지 또는 SSE4.1 또는 최대 SSE4.2 또는 AVX까지 지원할 수 있는지 확인할 수 없으므로 내 프로그램에서 최소 SIMD 지원 지침을 사용할 수 있습니다. 도와주세요.

1열

1답변

ARM 네온하는 ARMv7 SIMD 명령어 다음 루프 네온 코드를 작성하는 방법을 비교

경우 : float sfx[64], delta = 9.9e-5; for(int i = 0; i < 64; i++) { if (sfx[i] < delta) { abq[i] = 1.0/delta; } else { abq[i] = 1.0/sfx[i]; } } 내가 vbslq_f32을 사용하려고하지만, 나는