8 文字をメモリからパックされた単精度浮動小数点として __m256 変数にロード
ガウスぼかしのアルゴリズムを最適化するために、次のようにします。 float バッファの使用を __m256 組み込み変数に置き換えようとします。この質問は、このタスクに最適な命令を決定することを目的としています。
AVX2 アーキテクチャの命令:
; rsi = new_image VPMOVZXBD ymm0, [rsi] ; or SX to sign-extend (Byte to DWord) VCVTDQ2PS ymm0, ymm0 ; convert to packed foat
追加の戦略:
AVX1 アーキテクチャの手順:
次の手順を実行します:
VPMOVZXBD xmm0, [rsi] VPMOVZXBD xmm1, [rsi+4] VINSERTF128 ymm0, ymm0, xmm1, 1 ; put the 2nd load of data into the high128 of ymm0 VCVTDQ2PS ymm0, ymm0 ; convert to packed float
組み込みに関する考慮事項:
以上がパックされた単精度浮動小数点数として __m256 変数に 8 文字をロードするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。