일부 하드웨어 (하드웨어 자체는 중요하지 않음)로 작업하고 있으며 일부 블록 데이터를 별도의 조각으로 나누어 빠르게 실행해야합니다.데이터의 고속 인터리빙
예를 들어 연속적인 메모리 블록 X 단어가 있습니다. 블록 2
블록 (Block)001 003 005 007 ...
101 103 105 107 ...
: 나는 네 개의 개별 블록으로 이러한 분할의 빠른 방법이 필요
001 002 003 004 005 006 007 ...
051 052 053 054 055 056 057 ...
101 102 103 104 105 106 107 ...
151 152 153 154 155 156 157 ...
: 시각화를 위해, 나는 아래 50 개 워드 라인으로 배열하고있어
002 004 006 ...
102 104 106 ...
블록 3
기본적으로051 053 055 057 ...
151 153 155 157 ...
Block4
052 054 056 ...
152 154 156 ...
또는 :
Block1 Block2 Block1 Block2 ...
Block3 Block4 Block3 Block4 ...
Block1 Block2 Block1 Block2 ...
Block3 Block4 Block3 Block4 ...
지금이 일이-루프를 사용하는 것만 큼 간단합니다. 그러나 이것을 더 최적화/병렬화하는 방법은 무엇입니까? (MPI가 없어도 데스크톱에서 실행되는 앱에서 발생합니다.)
그래서 단지 명확하게하기 위해, 그것을 합산 : 위의 그림과 같이
내가 데이터를 가지고있다.
이 데이터를 여러 기기 (PC 외부)로 보냈습니다. 이 데이터는 별도의 장치로 4 개의 개별 블록으로 와이어 아래로 보내야합니다.
리소스/링크/책이 시작 되었습니까? – moogs
인텔의 x86 설명서 제 1 권 9 장은 논리적 인 것 같습니다. – MSalters