如何将 8 个字符作为打包单精度浮点数加载到 _

如何将 8 个字符作为打包单精度浮点数加载到 __m256 变量中？

Patricia Arquette

发布： 2024-11-03 13:21:30

原创

710 人浏览过

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

将 8 个字符从内存加载到 __m256 变量中作为打包单精度浮点数

为了优化高斯模糊算法，您寻求用 __m256 内在变量替换浮点缓冲区的使用。本问题旨在确定此任务的最佳指令。

AVX2 架构说明：

利用 PMOVZX 将字符零扩展为 32 位256b 寄存器中的整数。
使用 VCVTDQ2PS 就地转换为浮点数。

; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat

登录后复制

其他策略：

考虑使用 128 位广播负载来为高 64 位提供 vpmovzxbd ymm,xmm 和 vpshufb ymm (_mm256_shuffle_epi8)。这种方法减少了 uop 数量，对 Ryzen CPU 很有好处。
避免使用额外的 shuffle 指令，因为当 shuffle 已经成为限制时，它们可能会成为瓶颈。

AVX1 架构说明：

执行以下步骤：

VPMOVZXBD   xmm0,  [rsi]
VPMOVZXBD   xmm1,  [rsi+4]
VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
VCVTDQ2PS   ymm0, ymm0     ; convert to packed float

登录后复制

内在注意事项：

GCC 和 MSVC 可能需要特殊处理，以确保在使用 VPMOVZXBD ymm,[mem] 的内部函数时生成最佳代码。
考虑使用 _mm_loadl_epi64 内部函数，它可以折叠到在 GCC 版本 9 及更高版本上使用 GCC 在 -O3 处实现最佳 asm 的内存操作数。
对于仅限 AVX1 的优化，编写内在函数版本是一项无趣的练习。

以上是如何将 8 个字符作为打包单精度浮点数加载到 __m256 变量中？的详细内容。更多信息请关注PHP中文网其他相关文章！