パックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?

Patricia Arquette
リリース: 2024-11-03 13:21:30
オリジナル
566 人が閲覧しました

How to Load 8 Chars into an __m256 Variable as Packed Single Precision Floats?

8 文字をメモリからパックされた単精度浮動小数点として __m256 変数にロード

ガウスぼかしのアルゴリズムを最適化するために、次のようにします。 float バッファの使用を __m256 組み込み変数に置き換えようとします。この質問は、このタスクに最適な命令を決定することを目的としています。

AVX2 アーキテクチャの命令:

  • PMOVZX を利用して文字を 32 ビットにゼロ拡張します256b レジスタ内の整数。
  • VCVTDQ2PS を使用してその場で float に変換します。
; rsi = new_image
VPMOVZXBD   ymm0,  [rsi]   ; or SX to sign-extend  (Byte to DWord)
VCVTDQ2PS   ymm0, ymm0     ; convert to packed foat
ログイン後にコピー

追加の戦略:

  • 128 ビットのブロードキャスト ロードを使用して、上位 64 ビットの vpmovzxbd ymm,xmm および vpshufb ymm (_mm256_shuffle_epi8) を供給することを検討してください。このアプローチは uop 数を削減し、Ryzen CPU では有益です。
  • シャッフルがすでに制限されている場合、ボトルネックになる可能性があるため、余分なシャッフル命令の使用は避けてください。

AVX1 アーキテクチャの手順:

  • 次の手順を実行します:

    VPMOVZXBD   xmm0,  [rsi]
    VPMOVZXBD   xmm1,  [rsi+4]
    VINSERTF128 ymm0, ymm0, xmm1, 1   ; put the 2nd load of data into the high128 of ymm0
    VCVTDQ2PS   ymm0, ymm0     ; convert to packed float
    ログイン後にコピー

組み込みに関する考慮事項:

  • GCC および MSVC では、VPMOVZXBD ymm,[mem].
  • の組み込み関数を使用する場合、最適なコード生成を保証するために特別な処理が必要になる場合があります。
  • 代わりに _mm_loadl_epi64 組み込み関数を使用することを検討してください。 GCC バージョン 9 以降の GCC で -O3 で最適な asm を実現するためのメモリ オペランド。
AVX1 のみの最適化の場合、組み込みバージョンの作成は楽しくない作業です。

以上がパックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート