, 나는 문서를 통해 보면서다음 ARM 명령어 세트가 스톨을 생성합니까? ARM11MP Vfpu 프로그래밍
fmuls s0, s0, s4
fmacs s0, s1, s5
fmacs s0, s2, s6
fmacs s0, s3, s7
가 accumuate합니까 (4 × 4 행렬 곱셈의 일환으로) 4 구성 요소 내적을 수행 할 때 다음이 심하게 정체 것이라고 걱정했습니다 여기에 실속을 발생시키는 단계? 그렇다면 실제로 작업 할 32 개의 단일 레지스터 만 가져온 다음 9 개가 그대로 걸리므로 실제로 변경해야합니다. 또한, 내가 1 명령어에서 이것을 수행하도록 벡터 레지스터를 설정할 수는 있지만, ARM 레지스터에 오버플로하지 않으면 메모리에 거의 즉시 저장소에 대한 설정을 해제해야하므로 3 명령어 사이클이 가치가 있는지 궁금합니다. . 내 진짜 SO 계정이없는 집에서 게시하기 ...
's1'과's5'의 곱셈은's0'에 대한 이전의 덧셈이 완료 될 때까지 시작할 수 없습니까? – Gabe
s0이 누적 된 올바른 또는 s2, s6 또는 ... –