simd

    1

    3답변

    popcnt와 SSE4.2를 사용하는 cpu에서 배열의 근사 역수 제곱근을 더 빨리 계산하는 방법은 무엇입니까? 입력 값은 float 배열에 저장된 양의 정수 (0부터 약 200,000 범위)입니다. 출력은 실수 배열입니다. 두 어레이의 sse에 대한 올바른 메모리 정렬이 있습니다. 코드 아래 만 1 개 XMM 레지스터를 사용하는 리눅스에서 실행하고, gc

    2

    1답변

    두 개의 SSE 레지스터가 있는데 한쪽의 상위 절반을 다른 한쪽의 하위 절반으로 대체하려고합니다. 늘 그렇듯이 가장 빠른 방법입니다. 레지스터 중 하나를 8 바이트 씩 이동하면 연결할 수 있습니다. alignr을 연결합니다. 단일 명령 솔루션이 있습니까?

    0

    1답변

    나는 SIMD 프로그램에 신인 해요 unsigned int Hash(unsigned int f); uint_v Hash(uint_v vec); int main() { std::random_device rd; unsigned* mem1=new unsigned [_size](); for(int i=0;i<_size;++i

    -3

    1답변

    최근에 부드러운 래스터 렌더러를 쓰고 있지만 속도가 너무 느립니다. 성능 테스트를 통해 float lerp 함수가 병목 현상이라는 것을 알게되었습니다. 이 기능의 속도를 향상시키는 방법은 무엇입니까? simd를 사용합니까? 어떤 생각? inline float MathUtil::Lerp(float x1, float x2, float t) { ret

    0

    1답변

    SIMD 명령어 (SSE 및 AVX)를 사용하여 여러 작업을 수행하고 있습니다. 이해할 수 있듯이 SSE 명령어는 16 바이트 정렬 메모리에서 가장 잘 작동하며 AVX 명령어는 32 바이트 정렬 메모리에서 가장 잘 작동합니다. SSE와 AVX 모두에서 최적의 사용을 위해 항상 32 바이트 경계에 맞게 메모리를 할당하는 것이 안전합니까? 32 바이트 정렬 메

    0

    1답변

    명령어 수준 병렬 처리와 SIMD (단일 명령어, 다중 데이터)의 유사점 및 차이점은 무엇입니까? 그들은 둘 다 여러 가지 지시 사항으로 작업한다는 것을 알고 있지만 그것이 내가 생각할 수있는 유일한 유사점입니다.

    1

    1답변

    나는 테이블에서 일부 값을로드하고 벡터로를 설정할 : 첫 번째 경우에에 벡터의 네 값을 설정 float32x4_t dest = vdupq_n_f32(a); intrinsics 매뉴얼을 읽을 때 매우 분명했습니다. 두 번째 경우에는 벡터의 4 개 값을 테이블과 다른 값으로 설정하십시오. 그에 대한 지시가 없기 때문에이 조금 까다로운, 그래서 나는 다음과

    2

    1답변

    Cython 코드 내에서 AES-NI 명령어를 사용할 수 있습니까? 내가 찾을 수있는 가장 가까운 사람이 SIMD 명령에 액세스하는 방법입니다 https://groups.google.com/forum/#!msg/cython-users/nTnyI7A6sMc/a6_GnOOsLuQJ 파이썬 스레드에서 AES-NI는 대답하지 않은 : Python support f

    2

    2답변

    짧은 배경 : CUDA에는 동기화가 보장되는 32 개의 스레드 인 warps 개념이 있습니다. 나는이 SIMD 동작에 의존하여 (일부 루프, 1 스레드가 끝나고 나머지 스레드가 계산에 사용하는 공유 메모리에 값을 쓰는) 동기화 호출 전체의 잠재적 오버 헤드를 피하기 위해 커널을 사용합니다. 예를 들어 OpenCL에서이 동작을 이미지화하는 방법이 있습니다.

    4

    1답변

    SSE는 압축 된 정수를 다양한 양으로 시프트하는 방법을 제공하지 않습니다 (AVX 및 그 이전의 모든 명령어를 사용할 수 있음). 유니폼 교대 만 할 수 있습니다. 벡터의 각 정수에 대해 달성하려는 결과는 다음과 같습니다. i[0] = i[0] & 0b111111; i[1] = (i[1]>>6) & 0b111111; i[2] = (i[2]>>12) &