Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開-AI-php.cn

TPU と GPU

ホームページ

テクノロジー周辺機器

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

PHPz

Apr 07, 2023 pm 02:54 PM

グーグル ai

Google は、2020 年の早い段階で、当時最も強力な AI チップである TPU v4 を自社のデータセンターに導入しました。

しかし、Google がこの AI スーパーコンピューターの技術的詳細を初めて発表したのは、今年 4 月 4 日のことでした。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

文書アドレス: https://arxiv.org/abs/2304.01433

TPU v3 と比較して、TPU v4 のパフォーマンスは 2.1 倍高く、4096 チップを統合した後のスーパーコンピューターのパフォーマンスは 10 倍向上します。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

さらに、Google は、自社のチップが Nvidia A100 よりも高速でエネルギー効率が高いとも主張しています。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

A100 と競合、1.7 倍高速

Google は論文の中で、同等のサイズのシステムでは TPU v4 が必要であると述べています。 NVIDIA A100 よりも 1.7 倍優れたパフォーマンスを提供しながら、エネルギー効率も 1.9 倍向上します。

さらに、Google のスーパーコンピューティング速度は、Graphcore IPU Bow よりも約 4.3 倍から 4.5 倍高速です。

Google は、TPU v4 パッケージと、回路基板に実装された 4 つのパッケージをデモしました。

TPU v3 と同様、各 TPU v4 には 2 つの TensorCore (TC) が含まれています。各 TC には、4 つの 128x128 行列乗算ユニット (MXU)、128 チャネル (チャネルあたり 16 ALU) を持つベクトル処理ユニット (VPU)、および 16 MiB ベクトルメモリ (VMEM) が含まれています。

2 つの TC は 128 MiB の共通メモリ (CMEM) を共有します。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

A100 チップと Google の第 4 世代 TPU が同時に発売されたことは注目に値します。そのため、具体的なパフォーマンスはどのように比較されるのでしょうか?

Google は、5 つの MLPerf ベンチマークで各 DSA の最速パフォーマンスを個別に実証しました。これらには、BERT、ResNET、DLRM、RetinaNet、MaskRCNN が含まれます。

その中で、Graphcore IPU は BERT と ResNET で結果を提出しました。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

ResNet と BERT の 2 つのシステムの結果を以下に示します。点間の点線はチップ数に基づく補間です。

TPU v4 と A100 の両方の MLPerf 結果は、IPU よりも大規模なシステム (4096 チップ対 256 チップ) まで拡張できます。

同様のサイズのシステムの場合、TPU v4 は BERT 上で A100 より 1.15 倍、IPU より約 4.3 倍高速です。 ResNet の場合、TPU v4 はそれぞれ 1.67 倍、約 4.5 倍高速です。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

MLPerf ベンチマークでの電力使用量については、A100 は平均して 1.3 倍から 1.9 倍の電力を使用しました。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

#1 秒あたりの浮動小数点演算のピーク値は実際のパフォーマンスを予測しますか?機械学習分野の多くの人は、1 秒あたりの浮動小数点演算のピーク値がパフォーマンスの良い指標であると信じていますが、実際はそうではありません。

たとえば、TPU v4 は、1 秒あたりのピーク浮動小数点演算では 1.10 倍の利点しかないにもかかわらず、2 つの MLPerf ベンチマークでは、同じサイズのシステム上の IPU Bow よりも 4.3 倍から 4.5 倍高速です。

別の例では、A100 の 1 秒あたりのピーク浮動小数点演算は TPU v4 の 1.13 倍ですが、同じチップ数の場合、TPU v4 は 1.15 ～ 1.67 倍高速です。

次の図は、ルーフラインモデルを使用して、ピーク FLOPS/秒とメモリ帯域幅の関係を示しています。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

そこで問題は、なぜ Google が Nvidia の最新の H100 と比較しないのかということです。

Googleは、H100はGoogleのチップ発売後の新しいテクノロジーを使用して構築されたため、第4世代製品をNvidiaの現在の主力チップであるH100チップと比較しなかったと述べた。

ただし、Google は Nvidia H100 と競合する新しい TPU を開発していることを示唆しましたが、詳細は明らかにしませんでした。グーグルの研究者ジュッピ氏はロイターのインタビューで、グーグルには「将来のチップの生産ライン」があると述べた。

TPU と GPU

ChatGPT と Bard が「戦っている」一方で、2 つの巨大企業も舞台裏で稼働を維持するために懸命に働いています - NVIDIA CUDA サポートGPU (グラフィックスプロセッシングユニット) と Google がカスタマイズした TPU (テンソルプロセッシングユニット)。

言い換えれば、これはもはや ChatGPT 対 Bard の問題ではなく、TPU 対 GPU、そして行列乗算をいかに効率的に実行できるかの問題です。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

ハードウェアアーキテクチャの優れた設計により、NVIDIA の GPU は行列乗算タスクに最適であり、複数の CUDA コア間で効果的に切り替え、並列処理を実装します。

したがって、2012 年以降、GPU 上でモデルをトレーニングすることがディープラーニングの分野のコンセンサスとなり、それは今日に至るまで変わっていません。

NVIDIA DGX の発売により、NVIDIA は、知的財産権の欠如により競合他社が提供できない、ほぼすべての AI タスクに対するワンストップのハードウェアおよびソフトウェアソリューションを提供できるようになります。

対照的に、Google は 2016 年に第 1 世代のテンソルプロセッシングユニット (TPU) を発売しました。これにはカスタム ASIC (専用集積回路) が含まれているだけでなく、独自のアプリケーション向けに最適化されています。 TensorFlow フレームワーク。これにより、TPU は行列乗算以外の他の AI コンピューティングタスクでも利点が得られ、微調整タスクや推論タスクを高速化することもできます。

さらに、Google DeepMind の研究者は、より優れた行列乗算アルゴリズムである AlphaTensor を作成する方法も発見しました。

ただし、Google が自社開発テクノロジーと新たな AI コンピューティング最適化手法を通じて良好な結果を達成したにもかかわらず、Microsoft と Nvidia の長期にわたる綿密な協力は、それぞれの専門知識に依存してきました。製品の蓄積により、双方の競争優位性が同時に拡大しました。

#第 4 世代 TPU

## 2021 年の Google I/O カンファレンスで、ピチャイ氏が初めてこれを発表しました。 Google の最新世代 AI チップ TPU v4。

「これは、当社が Google に導入した中で最速のシステムであり、当社にとって歴史的なマイルストーンです。」

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開 ##Google の Bard や OpenAI の ChatGPT のような大規模な言語モデルがパラメータスケールで実装されているため、この改善は AI スーパーコンピュータを構築する企業間の競争において重要なポイントとなっています。

これは、単一のチップが保存できる容量よりもはるかに大きく、コンピューティングパワーの需要が巨大な「ブラックホール」であることを意味します。

したがって、これらの大規模なモデルは数千のチップに分散する必要があり、その後、モデルをトレーニングするためにそれらのチップが数週間、またはさらに長い間連携して動作する必要があります。

現在、これまでに公開された Google の最大の言語モデルである PaLM には 5,400 億個のパラメータがあり、これを 2 台の 4,000 チップスーパーコンピュータに分割して 50 日以内にトレーニングしました。

Google によると、自社のスーパーコンピューターはチップ間の接続を簡単に再構成して問題を回避し、パフォーマンスの調整を行うことができます。

Google 研究者の Norm Jouppi 氏と Google の著名なエンジニア David Patterson 氏は、このシステムについてブログ投稿で次のように書いています。

「回線切り替えによりバイパスが可能になります。「故障したコンポーネントを簡単に克服できます。この柔軟性により、スーパーコンピューターの相互接続のトポロジを変更して、機械学習モデルのパフォーマンスを加速することもできます。」

Google は現在、関連する詳細を公開しているところですが、そのスーパーコンピューターは、オクラホマ州メイズ郡にあるデータセンターで 2020 年からオンラインになっています。

Google によると、Midjourney はモデルのトレーニングにこのシステムを使用しており、最新バージョンの V5 では誰もが驚くべき画像生成を確認できるとのことです。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

最近、ピチャイ氏はニューヨーク・タイムズとのインタビューで、バード氏がLaMDAからPaLMに異動すると述べた。

TPU v4 スーパーコンピューターの恩恵を受けて、Bard はさらに強くなります。

以上がGoogleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7513

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする：キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ（memcachedやredisなど）またはローカルキャッシュ（ファイルやデータベースなど）を考慮することができます。効率的なデータ構造を採用する：ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造（線形検索の代わりにハッシュテーブルなど）を選択してディレクトリ情報を保存およびアクセスする

Debian Apacheログレベルを設定する方法 Apr 13, 2025 am 08:33 AM

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1：メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集：テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く（nanoなど）：sudonano/etc/apache2/apache2.conf

Debian Readdirが他のツールと統合する方法 Apr 13, 2025 am 09:42 AM

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1：C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude＃include＃include inctargc、char*argv []）{dir*dir; structdireant*entry; if（argc！= 2）{（argc！= 2）{

Debian OpenSSLがどのように中間の攻撃を防ぐか Apr 13, 2025 am 10:30 AM

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃（MITM）を防ぐために、以下の測定値をとることができます。HTTPSを使用する：すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS（Transport Layer Security Protocol）を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認：クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian syslogを学ぶ方法 Apr 13, 2025 am 11:51 AM

このガイドでは、Debian SystemsでSyslogの使用方法を学ぶように導きます。 Syslogは、ロギングシステムとアプリケーションログメッセージのLinuxシステムの重要なサービスです。管理者がシステムアクティビティを監視および分析して、問題を迅速に特定および解決するのに役立ちます。 1. syslogの基本的な知識Syslogのコア関数には以下が含まれます。複数のログ出力形式とターゲットの場所（ファイルやネットワークなど）をサポートします。リアルタイムのログ表示およびフィルタリング機能を提供します。 2。syslog（rsyslogを使用）をインストールして構成するDebianシステムは、デフォルトでrsyslogを使用します。次のコマンドでインストールできます：sudoaptupdatesud

Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト（CSR）を生成します：Openss

Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします（まだインストールされていない場合）：sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール：sudoiptables-l configuration

See all articles

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

TPU と GPU

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック