Intel Sandybridge ファミリ CPU のパイプラインのプログラムの非最適化
問題:
課題は、特定のプログラムに非効率性を導入して実行速度を低下させることです。このプログラムはガウス乱数を使用したモンテカルロ シミュレーションであり、Intel Sandybridge ファミリ CPU のパイプライン構造を活用することに焦点を当てています。
解決策:
パイプラインの非効率性の導入危険:
-
ストアロードフェンスでアトミック操作を使用する: 共有変数に対するアトミック操作を繰り返すと、パイプラインを停止させるメモリ依存関係が作成されます。さらに、ストアロード フェンスにより、メモリ操作のシリアル化された実行が強制されます。
-
フォールス シェアリングの作成: 複数のスレッドが異なるキャッシュ ラインの隣接するメモリ位置にアクセスし、キャッシュ バンクの競合と無効化が発生するようにします。
-
不規則なメモリ アクセス パターンを使用する: 効率的なプリフェッチとキャッシュの使用を妨げるため、シーケンシャル メモリ アクセスを避けます。たとえば、要素に不連続な順序でアクセスしたり、配列の代わりにリンク リストを使用したりします。
ループレベルの並列処理の弱体化:
-
ループ反復のシリアル化: ロックなどの同期メカニズムを使用するまたは、アトミック インクリメントを使用して、一度に 1 つのスレッドのみが各ループ反復を実行するようにします。
-
予測できない分岐を導入する: 分岐予測機能が予測するのが難しい分岐を含めます。間違ったパスが選択されています。
-
非効率的な操作を使用します: 効率的な操作を置き換えます乗算の代わりに除算、乗算の代わりに平方根、対数や指数関数の代わりに定数の乗算など、より遅い代替手段を使用した算術演算。
マイクロアーキテクチャ機能の活用:
-
不要なレジスターの流出を引き起こし、 fills: 多くのローカル変数と大規模なデータ構造を使用し、メモリへのスピル操作とフィル操作を強制します。
-
非効率な命令を使用します: 大幅なストールを引き起こす命令や、命令レベルの並列処理を低下させる命令を利用します。 、アライメントされていないメモリ アクセスや 32 ビットでの 16 ビット操作などmode.
-
キャッシュ リソースの競合: 複数の配列またはデータ構造に同時にアクセスしたり、不連続なメモリ アクセス パターンを使用したり、CLFLUSH などの命令を使用してキャッシュ ラインを明示的に無効にしたりすることにより、過剰なキャッシュ ミスが発生します。
コンパイラの最適化回避:
-
インライン アセンブリを使用する: インライン アセンブリを使用してコンパイラの最適化をバイパスし、命令生成を手動で制御し、キャッシュに優しいコード変換を回避します。
-
未定義の動作を使用する: 非ポインター型でのポインター演算など、予期しない動作を引き起こしたり、非効率なコードを生成したりする可能性のある操作を実行する。初期化されていないメモリ アクセス。
-
不必要な再コンパイルを強制する: コメントの追加やマクロの変更など、再コンパイルが必要な方法でコードを変更して、キャッシュされたコード パスを無効にし、コンパイラの効率を低下させます。
結論:
これらの非効率性をプログラムに組み込むことで、実行速度を大幅に低下させ、コードを最適化することの重要性を強調することができます。最新のパイプライン アーキテクチャ向け。ただし、これらの手法は実際のアプリケーションでの実用的な使用を目的としたものではなく、不十分な最適化がパフォーマンスに及ぼす潜在的な影響を説明することのみを目的としていることに注意することが重要です。
以上がプログラムを意図的に最適化してインテル Sandybridge パイプラインのボトルネックを明らかにするにはどうすればよいでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。