將8 個字元從記憶體載入到__m256 變數中作為打包單精確度浮點數
為了優化高斯模糊演算法,您尋求用__m256 內在變數取代浮點緩衝區的使用。本問題旨在確定此任務的最佳指令。
AVX2 架構說明:
; rsi = new_image VPMOVZXBD ymm0, [rsi] ; or SX to sign-extend (Byte to DWord) VCVTDQ2PS ymm0, ymm0 ; convert to packed foat
其他策略:
AVX1 架構說明:
執行下列步驟:
VPMOVZXBD xmm0, [rsi] VPMOVZXBD xmm1, [rsi+4] VINSERTF128 ymm0, ymm0, xmm1, 1 ; put the 2nd load of data into the high128 of ymm0 VCVTDQ2PS ymm0, ymm0 ; convert to packed float
執行以下步驟
以上是如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中?的詳細內容。更多資訊請關注PHP中文網其他相關文章!