社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > C++ > 如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？

如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？

Patricia Arquette

發布： 2024-11-03 13:21:30

原創

688 人瀏覽過

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

將8 個字元從記憶體載入到__m256 變數中作為打包單精確度浮點數

為了優化高斯模糊演算法，您尋求用__m256 內在變數取代浮點緩衝區的使用。本問題旨在確定此任務的最佳指令。

AVX2 架構說明：

利用 PMOVZX 將字元零擴充為 32 位元256b 暫存器中的整數。
使用 VCVTDQ2PS 就地轉換為浮點數。

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

登入後複製

其他策略：

考慮使用128 位元廣播負載來提供高64 位元vpmovzxbd ymm,xmm 和 (pshu mmmmmmmm _mm256_shuffle_epi8)。這種方法減少了 uop 數量，對 Ryzen CPU 很有好處。
避免使用額外的 shuffle 指令，因為當 shuffle 已經成為限制時，它們可能會成為瓶頸。

AVX1 架構說明：

執行下列步驟：

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi+4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

登入後複製

執行下列步驟：

執行以下步驟

GCC 和MSVC 可能需要特殊處理，以確保在使用VPMOVZXBD ymm,[mem] 的內部函數時產生最佳程式碼。
考慮使用 _mm_loadl_epi64 內部函數，它可以折疊到在 GCC 版本 9 及更高版本上使用 GCC 在 -O3 處實現最佳 asm 的內存操作數。

對於僅限 AVX1 的最佳化，編寫內在函數版本是一項無趣的練習。

以上是如何將 8 個字元作為打包單精度浮點數載入到 __m256 變數中？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

上一篇：為什麼我們可以刪除指向 const 物件的 const 指標？下一篇：什麼時候可以從 C 標準函式庫類別繼承？

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2855

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2991

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

2489

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

2422

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

2465

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1434560
php入門教程之一週學會PHP

4292090
JAVA 初級入門影片教學

2640168
小甲魚零基礎入門學習Python影片教學

515041
PHP 零基礎入門教學

874842

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板