ChatGPT はインターネット上で人気があり、その背後にある AI モデルのトレーニングも広く注目を集めています。 IBM Research は最近、同社が開発したクラウドネイティブ スーパーコンピューター Vela を迅速に導入して、基本的な AI モデルのトレーニングに使用できることを発表しました。 2022 年 5 月以来、同社の研究者数十人がこのスーパーコンピューターを使用して、数百億のパラメーターを使用して AI モデルをトレーニングしてきました。
基本モデルは、大量のラベルなしデータでトレーニングされた AI モデルであり、その汎用性により、微調整するだけでさまざまなタスクに使用できます。その規模は膨大であり、膨大で高価なコンピューティング能力を必要とします。したがって、専門家が言うように、次世代の大規模基本モデルの開発では計算能力が最大のボトルネックとなり、そのトレーニングには多大な計算能力と時間を必要とします。
数百億または数千億のパラメーターを実行できるモデルをトレーニングするには、ネットワーク、並列ファイル システム、ベア メタル ノードなどの高性能コンピューティング ハードウェアの使用が必要です。このハードウェアは導入が難しく、運用コストがかかります。 Microsoft は 2020 年 5 月に OpenAI 用の AI スーパーコンピューターを構築し、Azure クラウド プラットフォームでホストしました。しかしIBMは、これらはハードウェア主導型であるため、コストが増加し、柔軟性が制限されると述べている。
クラウド AI スーパーコンピューター
そこで IBM は、「特に大規模 AI に焦点を当てた」Vela と呼ばれるシステムを作成しました。
Vela は、必要に応じて IBM のクラウド データ センターに導入でき、それ自体が「仮想クラウド」です。このアプローチは、物理ベースのスーパーコンピューターを構築する場合と比較して計算能力を削減しますが、より柔軟なソリューションを作成します。クラウド・コンピューティング・ソリューションは、API インターフェースを介してエンジニアにリソースを提供し、広範な IBM クラウド・エコシステムに簡単にアクセスしてより深い統合を実現し、必要に応じてパフォーマンスを拡張する機能を提供します。
IBM エンジニアは、Vela はカスタム ストレージ バックエンドを構築する代わりに、IBM Cloud Object Storage 上のデータ セットにアクセスできると説明しました。以前は、このインフラストラクチャはスーパーコンピュータに個別に構築する必要がありました。
AI スーパーコンピューターの主要コンポーネントは、多数の GPU とそれらを接続するノードです。 Vela は実際に各ノードを (ベアメタルではなく) 仮想マシンとして構成します。これは最も一般的な方法であり、AI トレーニングに最も理想的な方法であると広く考えられています。
Vela はどのように構築されていますか?
クラウド仮想コンピュータの欠点の 1 つは、パフォーマンスが保証できないことです。パフォーマンスの低下に対処し、仮想マシン内でベアメタルのパフォーマンスを実現するために、IBM のエンジニアは、ノードのパフォーマンス (GPU、CPU、ネットワーク、ストレージを含む) をフルに解放し、負荷損失を 5% 未満に削減する方法を見つけました。
これには、仮想化用のベア メタル ホストの構成、仮想マシンのスケーリング、ラージ ページおよびシングル ルート IO の仮想化のサポート、および仮想マシン内のすべてのデバイスと接続の現実的な表現が含まれます。ネットワーク カード、CPU、GPU も含まれます。一致と、それらが相互にブリッジする方法。この作業を完了した後、仮想マシン ノードのパフォーマンスが「ベアメタルに近い」ことがわかりました。
さらに、彼らは、AI トレーニング データ、モデル、完成品をキャッシュするための大容量 GPU メモリと大量のローカル ストレージを備えた AI ノードの設計にも取り組んでいます。 PyTorch を使用したテストでは、ワークロードの通信パターンを最適化することで、スーパーコンピューティングで使用される Infiniband のような高速ネットワークと比較して、比較的低速なイーサネット ネットワークのボトルネックを橋渡しできることもわかりました。
構成に関しては、各 Vela は 8 つの 80 GB A100 GPU、2 つの第 2 世代 Intel Xeon スケーラブル プロセッサ、1.5 TB のメモリ、および 4 つの 3.2 TB NVMe ハード ドライブを使用しており、あらゆる規模で使用できます。世界中にあるIBMのクラウドデータセンター。
IBM エンジニアは次のように述べています。「適切なツールとインフラストラクチャを用意することは、研究開発の効率を向上させるための重要な要素です。多くのチームは、AI 用の従来のスーパーコンピュータを構築するという実証済みの道を選択しています...ハイパフォーマンス コンピューティングとハイエンド ユーザーの生産性という二重のメリットを提供する、より良いソリューションの開発に取り組んでいます。」
以上がIBM、クラウドネイティブ AI スーパーコンピューター Vela を開発し、数百億のパラメーター モデルを柔軟に展開してトレーニングできるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。