NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

王林
リリース: 2023-04-12 21:13:07
転載
1878 人が閲覧しました

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

膨大な数の演算回路が NVIDIA GPU を強化し、AI、ハイパフォーマンス コンピューティング、コンピューター グラフィックスのかつてない高速化を可能にします。したがって、GPU のパフォーマンスと効率を向上させるには、これらの演算回路の設計を改善することが重要です。 AI がこれらの回路の設計を学習したらどうなるでしょうか?最近の NVIDIA の論文「PrefixRL: 深層強化学習を使用した並列プレフィックス回路の最適化」では、研究者は、AI がこれらの回路をゼロから設計できるだけでなく、AI で設計された回路が最新の技術で設計された回路よりも優れていることを実証しました。最先端の電子設計自動化 (EDA) ツールにより、回路がより小さく、より高速になります。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

論文アドレス: https://arxiv.org/pdf/2205.07000.pdf

#最新の NVIDIA Hopper GPU アーキテクチャには、AI によって設計された回路サンプルが 13,000 近くあります。下の図 1: 左側の PrefixRL AI によって設計された 64b 加算器回路は、図 1 の右側の最先端の EDA ツールによって設計された回路より 25% 小型です。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。回路設計の概要

コンピュータチップ内の演算回路は、次のような論理ゲートのネットワークで構成されています。 NAND、NOR、XOR など)とワイヤ。理想的な回路は次の特性を備えている必要があります。

    小規模: 面積が小さく、より多くの回路をチップ上にパッケージ化できます。
  • 高速: 遅延が短くなり、チップのパフォーマンスが向上し、
  • 消費電力が低くなります。
NVIDIA のこの調査では、研究者は回路面積と遅延に焦点を当てました。彼らは、消費電力が対象となる回路の領域と密接に関係していることを発見しました。回路面積と遅延は競合する特性であることが多いため、これらの特性を効果的にトレードオフする設計のパレートフロンティアを見つけることが望ましいです。つまり、研究者らは、遅延ごとに回路面積が最小化されることを望んでいます。

したがって、PrefixRL では、研究者は人気のあるクラスの算術回路、つまり並列プレフィックス回路に焦点を当てています。アクセラレータ、インクリメント、エンコーダなど、GPU 内のさまざまな重要な回路はプレフィックス回路であり、上位レベルでプレフィックス グラフとして指定できます。

そこで問題は、AI エージェントは優れたプレフィックス マップを設計できるかということです。すべての接頭辞グラフの状態空間は非常に大きい O(2^n^n) であり、総当り的な方法を使用して探索することはできません。以下の図 2 は、4b 回線インスタンスを使用した PrefixRL の反復を示しています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

研究者らは、回路ジェネレーターを使用して、プレフィックス図をワイヤと論理ゲートを備えた回路に変換しました。次に、これらの生成された回路は、ゲート サイズ、複製、バッファ挿入などの物理合成最適化を使用する物理合成ツールを通じて最適化されます。

これらの物理合成の最適化により、最終的な回路プロパティ (遅延、面積、電力) は、元のプレフィックス グラフのプロパティ (レベルやノード数など) から直接変換されません。これが、AI エージェントがプレフィックス グラフの設計を学習しながら、プレフィックス グラフから生成された最終回路のプロパティを最適化する理由です。

研究者は、

算術回路設計を強化学習(RL)タスクとして扱い、エージェントは算術回路領域を最適化するように訓練されます。そして遅延特性。プレフィックス回線については、RL エージェントがプレフィックス グラフ内のノードを追加または削除し、次の手順を実行できる環境を設計しました。

    プレフィックス グラフは次のように正規化されます。常に正しいプレフィックス合計計算を維持します;
  1. #正規化されたプレフィックス グラフから回路を生成します;
  2. 物理合成ツールを使用して回路の物理合成最適化を実行します ;
  3. #回路の面積と遅延特性を測定します。
  4. 次のアニメーションでは、RL エージェントはノードを追加または削除することによって、プレフィックス グラフを段階的に構築します。各ステップで、エージェントは回路面積と遅延が改善されるという恩恵を受けます。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

#元の画像はインタラクティブ バージョンです。

完全畳み込み Q 学習エージェント

研究者らは、Q 学習 (Q ラーニング) アルゴリズムを使用して、エージェントの回路設計をトレーニングします。以下の図 3 に示すように、プレフィックス グラフをグリッド表現に分解します。グリッド内の各要素はプレフィックス ノードに一意にマッピングされます。このグリッドは、Q ネットワークに使用される入力と出力を表します。入力グリッドの各要素は、ノードが存在するかどうかを表します。出力グリッドの各要素は、ノードの追加または削除の Q 値を表します。

Q 学習エージェントの入力と出力はグリッド表現であるため、研究者は完全な畳み込みニューラル ネットワーク アーキテクチャを使用しています。エリアと遅延の報酬はトレーニング中に個別に観察できるため、エージェントはエリアと遅延の属性の Q 値を個別に予測します。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 3: 4b プレフィックス グラフ表現 (左) と完全畳み込み Q 学習エージェント アーキテクチャ (右)。

分散トレーニング用の Raptor

PrefixRL では多くの計算が必要です。物理シミュレーションでは、各 GPU に 256 個の CPU が必要で、64b タスクのトレーニングには 32,000 以上の CPU が必要です。 GPU時間。今回、NVIDIA は、NVIDIA のハードウェアの利点を最大限に活用し、この種の産業レベルの強化学習を実行できる分散強化学習プラットフォームである Raptor を社内で開発しました (下図 4)。

Raptor には、ジョブ スケジューリング、カスタム ネットワーク、GPU 対応データ構造など、トレーニング モデルのスケーラビリティと速度を向上させる機能があります。 PrefixRL のコンテキストでは、Raptor は CPU、GPU、スポット インスタンスにわたるハイブリッド割り当てを可能にします。この強化学習アプリケーションのネットワークは多様であり、次の利点があります:

  • Raptor はモデルのピアツーピア転送のために NCCL 間を切り替えます パラメータは学習者から直接転送されますGPU から推論 GPU へ;
  • #Redis は、報酬や統計などの非同期で小規模なメッセージに使用されます;
  • JIT コンパイル済み RPC の場合、使用されますエクスペリエンス データのアップロードなど、大量かつ低遅延のリクエストを処理します。

最後に、Raptor は、マルチスレッド サービスを備えたリプレイ バッファーなどの GPU 対応のデータ構造を提供し、複数のワーカーからエクスペリエンスを受け取り、データを並列にバッチ処理して GPU にプリロードします。 。
以下の図 4 は、PrefixRL フレームワークが同時トレーニングとデータ収集をサポートし、NCCL を利用して参加者 (以下の図のアクター) に最新のパラメーターを効率的に送信することを示しています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 4: 研究者は、回路合成の遅延を克服するために、分離された並列トレーニングと報酬計算に Raptor を使用しています。

報酬計算

研究者は、トレードオフの重み w (範囲は [0,1]) を使用して、面積目標と遅延目標を組み合わせます。彼らは、パレート フロンティアを取得するためにさまざまな重みを使用してさまざまなエージェントをトレーニングし、それによってエリアのバランスをとり、トレードオフを遅らせます。
RL 環境での物理合成最適化により、エリアとレイテンシをトレードオフするさまざまなソリューションを生成できます。研究者は、特定のエージェントのトレーニングに使用されるのと同じトレードオフの重みを使用して物理合成ツールを駆動します。

報酬計算のループ内で物理合成最適化を実行すると、次の利点があります:

  • RL エージェントは、ターゲット テクノロジの最終回路特性を直接最適化する方法を学習します。ノードとライブラリ ;
  • RL エージェントには、物理​​合成プロセス中にターゲット アルゴリズム回路の周辺ロジックが含まれるため、ターゲット アルゴリズム回路とその周辺ロジックのパフォーマンスを共同で最適化します。

ただし、物理合成の実行には時間がかかり (64b 加算器の場合は約 35 秒)、RL のトレーニングと探索が大幅に遅くなる可能性があります。
研究者らは、エージェントがアクションを実行するために必要なのは回路合成や以前の報酬ではなく、現在のプレフィックス グラフの状態のみであるため、報酬の計算を状態の更新から切り離しています。 Raptor のおかげで、アクター エージェントは待機することなく環境内で実行できる一方で、長時間の報酬計算を CPU ワーカーのプールにオフロードして物理合成を並行して実行できます。

CPU ワーカーが報酬を返すと、変換をリプレイ バッファーに埋め込むことができます。包括的な報酬は、状態が再び発生した場合の冗長な計算を避けるためにキャッシュされます。

結果と見通し

以下の図 5 は、PrefixRL と最先端の EDA ツールのパレート支配加算器回路を使用して設計された 64b 加算器回路の面積と遅延を示しています。

最高の PrefixRL 加算器は、同じレイテンシで EDA ツール加算器よりも 25% 少ない面積を達成します。物理合成の最適化後にパレート最適加算器回路にマッピングされたこれらのプレフィックス グラフは、不規則な構造を持っています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 5: PrefixRL によって設計された演算回路は、最新の技術によって設計された回路よりも小さい-art EDA ツールとより高速。

(左) 回路アーキテクチャ、(右) 対応する 64b 加算器回路特性図

ここまでご存知のとおり、これは深層強化学習エージェントを使用して算術回路を設計する最初の方法です。 NVIDIA は、AI を現実世界の回路設計の問題に適用し、アクション スペース、状態表現、RL エージェント モデルを構築し、複数の競合する目標に合わせて最適化し、報酬計算の遅さを克服するための青写真を構想しています。

以上がNVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート