simd

    6

    1답변

    인덱스 I0, I1, I2, I3을 포함하는 정렬 된 정수 배열을 메모리에 가지고 있습니다. 내 목표는 I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1을 포함하는 __m256i 레지스터로 가져 오는 것입니다. 어려운 부분은 I0, I0으로 256 비트 레지스터로 가져옵니다. 0, 1, 0, 1, 0, 1을 포함하는 레지스

    1

    1답변

    벡터화에서 속도를 높이기 위해 SSE를 사용하여 sqrt(i + sqrt(i + sqrt(i + ...))) 라디칼의 근사값을 계산하려고합니다. (또한 SIMD 제곱근 함수는 약 4.7x보다 빠르게 실행됩니다. 본래 FPU 제곱근 함수). 그러나 벡터화 된 버전에서 동일한 기능을 사용하는 데 문제가 있습니다. 나는 잘못된 값을 얻고 난 내 원래 기능이 있는

    1

    1답변

    C에서 http://primates.ae/이라는 PRIMATEs 암호의 비트 분할 구현을 구현했습니다.이 코드를 SIMD 프로그래밍을 사용하여 만들었으므로 코드에서 AVX2 명령어 세트를 사용합니다. 현재 내 구현이 얼마나 효과적인지 정확하게 측정하려고 시도하고 있지만 실제로 현재 숫자를 신뢰하지는 않습니다. 현재의 숫자로 볼 때 바이트 당 약 200 사이

    -1

    1답변

    SandyBridge 프로세서 (i7-3820)에서 일련의 응용 프로그램을 벤치마킹합니다. 벤치 마크는 두 가지 버전으로 구성됩니다. 이 두 버전은 첫 번째 버전이 sse/sse2 인 텐트를 사용하고 두 번째 버전이 avx 인트 린직을 사용하는 유일한 차이점과 동일한 코드를 포함합니다. 내가 64 또는 86에 하나의 SSE instrinsics와 버전을 컴

    -1

    1답변

    short 형식의 대상 배열에 추가해야하는 긴 바이트 배열이 있습니다. 이 솔루션은 여기에서 찾을 수 있습니다 :이 명령 (추가을위한 2 개의 8 요소 짧은 배열에 하나의 16 요소 바이트 배열을 풀기에 필요한 ) "를 풀고"의 지원이 부족 managed SIMD 을 사용하여이 작업을 수행하려고 SEE byte + short. . 여기 지원 연산 관리 SI

    0

    1답변

    나는 알고리즘의 시간을 "일반적인"것과 비교해야하기 때문에 SIMD를 사용하여 2 행렬을 곱하는 예제를 얻으려고합니다. 여기 내가 왜 Efficient 4x4 matrix multiplication (C vs assembly)을 시도했는지입니다. *** stack smashing detected ***: ./prueba terminated Aborted

    1

    1답변

    float4/double4 구조체의 AVX-256/512 코드에서 기본 작동 *, +, /, -을 벡터 오버로드하여 벡터에서 빠른 성능 향상을 얻으려는 스칼라 등의 배율을 찾고 있습니다. float4/double4를 사용하여 작성된 코드에서의 연산. OpenCL은 이러한 데이터 유형을 intrinsics로 가지고 있지만 XeonPhi에서 실행되는 C++ 코

    0

    1답변

    의 크기 I 같은 NumPy와를 사용 파이썬는 M × N 행렬을 생성 익숙 : 스위프트에서 In [1]: import numpy as np In [2]: np.zeros((10,5)) Out[2]: array([[ 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0.

    9

    1답변

    웹 및 intel Software manual으로 검색했습니다. 그러나 모든 인텔 64 아키텍처가 SSSE3까지 또는 SSE4.1 또는 최대 SSE4.2 또는 AVX까지 지원할 수 있는지 확인할 수 없으므로 내 프로그램에서 최소 SIMD 지원 지침을 사용할 수 있습니다. 도와주세요.

    1

    1답변

    경우 : float sfx[64], delta = 9.9e-5; for(int i = 0; i < 64; i++) { if (sfx[i] < delta) { abq[i] = 1.0/delta; } else { abq[i] = 1.0/sfx[i]; } } 내가 vbslq_f32을 사용하려고하지만, 나는