#AI システムの急速な発展に伴い、必要なエネルギーも増加しています。新しいシステムのトレーニングには大規模なデータ セットとプロセッサ時間が必要なため、非常にエネルギーを消費します。場合によっては、よく訓練されたシステムを実行することで、スマートフォンがその仕事を簡単に実行できることがあります。ただし、実行回数が多すぎると消費電力も増加します。 幸いなことに、後者のエネルギー消費を削減する方法はたくさんあります。 IBM とインテルは、実際のニューロンの動作を模倣するように設計されたプロセッサーを実験してきました。 IBM は、RAM への繰り返しアクセスを避けるために、相変化メモリ内でニューラル ネットワーク計算を実行するテストも行いました。 IBM は別のアプローチを導入しました。同社の新しい NorthPole プロセッサは、上記のアプローチからのアイデアのいくつかを統合し、非常に合理化された計算実行方法と組み合わせて、推論ベースのニューラル ネットワークを効率的に実行できるエネルギー効率の高いチップを作成します。このチップは、画像分類や音声転写などの分野で GPU よりも 35 倍効率的です。 # 公式ブログ: https://research.ibm.com/blog/northpole-ibm-ai-chip
#NorthPole は従来の AI プロセッサとは異なります
最初何よりも、NorthPole はニューラル ネットワークのトレーニングのニーズには何も対応せず、純粋に実行のために設計されています。 第二に、これは汎用 AI プロセッサではなく、推論に重点を置いたニューラル ネットワーク用に特別に設計されています。したがって、これを推論に使用したり、画像やオーディオ クリップの内容を調べたりしたい場合は、それが正しいです。しかし、大規模な言語モデルを実行する必要がある場合、このチップはあまり役に立たないようです。
最後に、NorthPole はニューロモーフィック コンピューティング チップからいくつかのアイデアを借用していますが、その処理ユニットはシミュレーションではなく計算を実行するため、ニューロモーフィック ハードウェアではありません。実際のニューロンによって使用されるスパイク通信です。
NorthPole は、以前の TrueNorth と同様に、計算セルの大規模な配列 (16×16) で構成されており、各セルにはローカル メモリとコード実行機能が含まれています。したがって、ニューラル ネットワーク内のさまざまな接続のすべての重みを、必要な場所に正確に保存できます。
もう 1 つの特徴は、少なくとも 4 つの異なるネットワークを備えた広範なオンチップ ネットワークです。これらのネットワークの一部は、完了した計算に関する情報を、それを必要とする次のコンピューティング ユニットに伝達します。他のネットワークは、コンピューティング ユニットのアレイ全体を再構成するために使用され、前の層の計算中にニューラル ネットワークの 1 つの層を実行するために必要なニューラルの重みとコードを提供します。最後に、隣接するコンピューティング ユニット間の通信が最適化されます。これは、画像内のオブジェクトのエッジを見つける場合などに便利です。画像の入力時に隣接するピクセルが隣接するコンピューティング ユニットに割り当てられる場合、それらのコンピューティング ユニットが連携して、隣接するピクセルにまたがる特徴をより簡単に識別できます。
さらに、NorthPole のコンピューティング リソースは異常です。各ユニットは、2 ビットから 8 ビットの範囲の低精度の計算を実行するように最適化されています。これらの実行ユニットを確実に使用するために、変数値に基づいて条件分岐を実行することはできません。つまり、ユーザー コードに if ステートメントを含めることはできません。この単純な実行により、コンピューティング ユニットごとに大規模な並列実行が可能になります。 2 ビット精度で、各ユニットは 8,000 を超える計算を並行して実行できます。 補完ソフトウェア
これらのユニークな設計のため、NorthPole チームは開発する必要がありました。独自のトレーニング ソフトウェアを使用して、各レイヤーが正常に動作するために必要な最小レベルの精度を計算します。チップ上でニューラル ネットワークを実行することも、比較的珍しいプロセスです。
ニューラル ネットワークの重みと接続がオンチップ バッファーに配置されると、実行には、外部コントローラーが実行したいデータをアップロードして開始を指示するだけで済みます。走る。他のすべては CPU なしで実行されるため、システム レベルの電力消費が制限されます。 NorthPole テスト チップは 12nm プロセスで製造されていますが、これは最先端の技術からはかなり遅れています。それでも、彼らは 220 億個のトランジスタに 256 個のコンピューティング ユニットを搭載し、それぞれに 768 KB のメモリを搭載することに成功しました。このシステムを、同様のプロセスで構築された Nvidia の V100 Tensor Core GPU と比較すると、NorthPole は同じ消費電力で 25 倍の計算能力を備えています。 同じ条件下では、NorthPole は最先端の GPU よりも約 5 倍優れています。このシステムのテストでは、広く使用されているさまざまなニューラル ネットワーク タスクも効率的に実行できることが示されています。
以上が220億個のトランジスタ、IBM機械学習プロセッサNorthPole、エネルギー効率が25倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。