Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben-KI-php.cn

Inhaltsverzeichnis

Im Wettbewerb mit A100 ist die Geschwindigkeit 1,7-mal schneller

TPU vs. GPU

Heim

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

PHPz

Apr 07, 2023 pm 02:54 PM

谷歌 ai

Obwohl Google bereits 2020 den damals leistungsstärksten KI-Chip, TPU v4, im eigenen Rechenzentrum einsetzte.

Aber erst am 4. April dieses Jahres gab Google erstmals die technischen Details dieses KI-Supercomputers bekannt.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Papieradresse: https://arxiv.org/abs/2304.01433

Im Vergleich zu TPU v3 ist die Leistung von TPU v4 2,1-mal höher, und nach der Integration von 4096 Chips ist die Leistung höher des Supercomputings wurde um das Zehnfache verbessert.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Darüber hinaus behauptet Google auch, dass der eigene Chip schneller und energieeffizienter sei als NVIDIA A100.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Im Wettbewerb mit A100 ist die Geschwindigkeit 1,7-mal schneller

In dem Papier gab Google an, dass TPU v4 bei Systemen vergleichbarer Größe eine 1,7-mal bessere Leistung als Nvidia A100 bieten und gleichzeitig die Energieeffizienz verbessern kann. 1,9-fach.

Darüber hinaus ist die Supercomputing-Geschwindigkeit von Google etwa 4,3-mal bis 4,5-mal schneller als die von Graphcore IPU Bow.

Google zeigte das TPU v4-Paket sowie 4 auf der Platine montierte Pakete.

Wie TPU v3 enthält jedes TPU v4 zwei TensorCore (TC). Jeder TC enthält vier 128x128 Matrixmultiplikationseinheiten (MXU), eine Vektorverarbeitungseinheit (VPU) mit 128 Kanälen (16 ALUs pro Kanal) und 16 MiB Vektorspeicher (VMEM).

Zwei TCs teilen sich einen 128 MiB großen gemeinsamen Speicher (CMEM).

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Es ist erwähnenswert, dass der A100-Chip gleichzeitig mit Googles TPU der vierten Generation auf den Markt kam. Wie ist also seine spezifische Leistung im Vergleich?

Google hat die schnellste Leistung jedes DSA bei 5 MLPerf-Benchmarks separat nachgewiesen. Dazu gehören BERT, ResNET, DLRM, RetinaNet und MaskRCNN.

Unter anderem hat Graphcore IPU Ergebnisse zu BERT und ResNET eingereicht.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Das Folgende zeigt die Ergebnisse der beiden Systeme auf ResNet und BERT. Die gepunkteten Linien zwischen den Punkten sind Interpolationen basierend auf der Anzahl der Chips.

MLPerf-Ergebnisse für TPU v4 und A100 lassen sich auf größere Systeme als die IPU skalieren (4096 Chips vs. 256 Chips).

Bei Systemen ähnlicher Größe ist TPU v4 1,15-mal schneller als A100 auf BERT und etwa 4,3-mal schneller als IPU. Für ResNet ist TPU v4 1,67x bzw. etwa 4,5x schneller.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Beim Stromverbrauch beim MLPerf-Benchmark verbrauchte der A100 im Durchschnitt 1,3x bis 1,9x mehr Strom.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Prognostizieren Spitzen-FLOPS die tatsächliche Leistung? Viele Leute im Bereich des maschinellen Lernens glauben, dass die Spitzenwerte bei Gleitkommaoperationen pro Sekunde ein guter Indikator für die Leistung sind, aber in Wirklichkeit ist das nicht der Fall.

Zum Beispiel ist TPU v4 bei zwei MLPerf-Benchmarks 4,3x bis 4,5x schneller als IPU Bow auf einem System gleicher Größe, obwohl es bei Spitzen-Gleitkommaoperationen pro Sekunde nur einen 1,10-fachen Vorteil hat.

Ein weiteres Beispiel ist, dass die maximalen Gleitkommaoperationen pro Sekunde von A100 1,13-mal so hoch sind wie die von TPU v4, aber bei der gleichen Anzahl von Chips ist TPU v4 1,15-mal bis 1,67-mal schneller.

Wie unten gezeigt, wird das Roofline-Modell verwendet, um die Beziehung zwischen Spitzen-FLOPS/Sekunde und Speicherbandbreite darzustellen.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Die Frage ist also: Warum vergleicht Google nicht mit Nvidias neuestem H100?

Google gab an, dass das Produkt der vierten Generation nicht mit Nvidias aktuellem Flaggschiff-H100-Chip verglichen wurde, da der H100 nach der Einführung der Google-Chips mit neuerer Technologie hergestellt wurde.

Google deutete jedoch an, dass es eine neue TPU entwickelt, die mit Nvidia H100 konkurrieren soll, nannte jedoch keine Details. Google-Forscher Jouppi sagte in einem Interview mit Reuters, dass Google „eine Produktionslinie für zukünftige Chips“ habe.

TPU vs. GPU

Während ChatGPT und Bard „gegeneinander kämpfen“, arbeiten zwei Giganten auch hinter den Kulissen hart daran, sie am Laufen zu halten – Nvidias CUDA-betriebene GPU (Grafikverarbeitungseinheit) und Googles angepasste TPU (Tensor). Verarbeitungseinheit).

Mit anderen Worten, hier geht es nicht mehr um ChatGPT vs. Bard, sondern um TPU vs. GPU und darum, wie effizient sie die Matrixmultiplikation durchführen können.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Aufgrund seines hervorragenden Designs in der Hardwarearchitektur eignet sich die GPU von NVIDIA sehr gut für Matrixmultiplikationsaufgaben – wodurch effektiv eine parallele Verarbeitung zwischen mehreren CUDA-Kernen erreicht wird.

Daher ist das Training von Modellen auf GPU seit 2012 ein Konsens im Bereich Deep Learning, und daran hat sich bis heute nichts geändert.

Mit der Einführung von NVIDIA DGX ist NVIDIA in der Lage, Hardware- und Softwarelösungen für fast alle KI-Aufgaben aus einer Hand anzubieten, die Wettbewerber aufgrund fehlender Rechte an geistigem Eigentum nicht bereitstellen können.

Im Gegensatz dazu brachte Google 2016 die Tensor Processing Unit (TPU) der ersten Generation auf den Markt, die nicht nur einen benutzerdefinierten ASIC (anwendungsspezifischer integrierter Schaltkreis) enthielt, der für Tensor-Computing optimiert war, sondern auch ein eigenes TensorFlow-Framework ins Visier nahm optimiert worden. Dies verschafft TPU neben der Matrixmultiplikation auch einen Vorteil bei anderen KI-Rechenaufgaben und kann sogar Feinabstimmungs- und Inferenzaufgaben beschleunigen.

Darüber hinaus haben Forscher von Google DeepMind auch einen Weg gefunden, einen besseren Matrixmultiplikationsalgorithmus zu entwickeln – AlphaTensor.

Obwohl Google durch selbst entwickelte Technologie und neue Methoden zur KI-Computing-Optimierung gute Ergebnisse erzielt hat, hat die langfristige, intensive Zusammenarbeit zwischen Microsoft und NVIDIA gleichzeitig den Handlungsspielraum beider Parteien durch die Nutzung ihrer jeweiligen Ersparnisse erweitert in der Branche.

TPU der vierten Generation

Bereits im Jahr 2021 kündigte Pichai auf der Google I/O-Konferenz zum ersten Mal den KI-Chip TPU v4 der neuesten Generation von Google an.

„Dies ist das schnellste System, das wir jemals bei Google eingesetzt haben, und ein historischer Meilenstein für uns.“

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Diese Verbesserung hat das Unternehmen zum Aufbau eines KI-Supercomputers gemacht. Dies ist ein wichtiger Punkt im Wettbewerb. da große Sprachmodelle wie Googles Bard oder OpenAIs ChatGPT in der Parametergröße explodiert sind.

Das bedeutet, dass sie weitaus größer sind als die Kapazität, die ein einzelner Chip speichern kann, und der Bedarf an Rechenleistung ein riesiges „Schwarzes Loch“ ist.

Diese großen Modelle müssen also auf Tausende von Chips verteilt werden, und dann müssen diese Chips wochenlang oder sogar länger zusammenarbeiten, um das Modell zu trainieren.

Derzeit verfügt PaLM, das größte von Google bisher öffentlich veröffentlichte Sprachmodell, über 540 Milliarden Parameter, die zum Training innerhalb von 50 Tagen auf zwei 4000-Chip-Supercomputer aufgeteilt wurden.

Google sagte, sein Supercomputer könne die Verbindungen zwischen Chips problemlos neu konfigurieren, um Probleme zu vermeiden und eine Leistungsoptimierung durchzuführen.

Google-Forscher Norm Jouppi und Google Distinguished Engineer David Patterson schrieben in einem Blogbeitrag über das System:

„Durch Schaltkreisumschaltung können ausgefallene Komponenten einfach umgangen werden. Diese Flexibilität ermöglicht es uns sogar, die Ultra-Computing-Verbindungstopologien zu ändern.“ um die Leistung von Modellen für maschinelles Lernen zu beschleunigen.

Obwohl Google erst jetzt Details zu seinem Supercomputer veröffentlicht, ist er seit 2020 in Oklahoma. Gehen Sie im Rechenzentrum von Mayes County online.

Google sagte, dass Midjourney dieses System zum Trainieren seines Modells verwendet habe und die neueste Version von V5 es jedem ermöglicht, die erstaunliche Bilderzeugung zu sehen.

Googles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben

Kürzlich sagte Pichai in einem Interview mit der New York Times, dass Bard von LaMDA zu PaLM versetzt wird.

Mit dem Segen des Supercomputers TPU v4 wird Bard jetzt nur noch stärker.

Das obige ist der detaillierte Inhalt vonGoogles Super-KI-Supercomputer vernichtet NVIDIA A100! Die Leistung von TPU v4 wurde um das Zehnfache gesteigert, Details wurden erstmals bekannt gegeben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7490

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

PhpMyAdmin erstellt Datentabelle Apr 10, 2025 pm 11:00 PM

Um eine Datentabelle mithilfe von PHPMYADMIN zu erstellen, sind die folgenden Schritte unerlässlich: Stellen Sie eine Verbindung zur Datenbank her und klicken Sie auf die neue Registerkarte. Nennen Sie die Tabelle und wählen Sie die Speichermotor (innoDB empfohlen). Fügen Sie Spaltendetails hinzu, indem Sie auf die Taste der Spalte hinzufügen, einschließlich Spaltenname, Datentyp, ob Nullwerte und andere Eigenschaften zuzulassen. Wählen Sie eine oder mehrere Spalten als Primärschlüssel aus. Klicken Sie auf die Schaltfläche Speichern, um Tabellen und Spalten zu erstellen.

Erstellen einer Oracle -Datenbank So erstellen Sie eine Oracle -Datenbank Apr 11, 2025 pm 02:33 PM

Das Erstellen einer Oracle -Datenbank ist nicht einfach, Sie müssen den zugrunde liegenden Mechanismus verstehen. 1. Sie müssen die Konzepte von Datenbank und Oracle DBMS verstehen. 2. Beherrschen Sie die Kernkonzepte wie SID, CDB (Containerdatenbank), PDB (Pluggable -Datenbank); 3.. Verwenden Sie SQL*Plus, um CDB zu erstellen und dann PDB zu erstellen. Sie müssen Parameter wie Größe, Anzahl der Datendateien und Pfade angeben. 4. Erweiterte Anwendungen müssen den Zeichensatz, den Speicher und andere Parameter anpassen und die Leistungsstimmung durchführen. 5. Achten Sie auf Speicherplatz, Berechtigungen und Parametereinstellungen und überwachen und optimieren Sie die Datenbankleistung kontinuierlich. Nur indem Sie es geschickt beherrschen, müssen Sie die Erstellung und Verwaltung von Oracle -Datenbanken wirklich verstehen.

So erstellen Sie die Oracle -Datenbank So erstellen Sie die Oracle -Datenbank Apr 11, 2025 pm 02:36 PM

Um eine Oracle -Datenbank zu erstellen, besteht die gemeinsame Methode darin, das dbca -grafische Tool zu verwenden. Die Schritte sind wie folgt: 1. Verwenden Sie das DBCA -Tool, um den DBNAME festzulegen, um den Datenbanknamen anzugeben. 2. Setzen Sie Syspassword und SystemPassword auf starke Passwörter. 3.. Setzen Sie Charaktere und NationalCharacterset auf AL32UTF8; 4. Setzen Sie MemorySize und tablespacesize, um sie entsprechend den tatsächlichen Bedürfnissen anzupassen. 5. Geben Sie den Logfile -Pfad an. Erweiterte Methoden werden manuell mit SQL -Befehlen erstellt, sind jedoch komplexer und anfällig für Fehler. Achten Sie auf die Kennwortstärke, die Auswahl der Zeichensatz, die Größe und den Speicher von Tabellenräumen

So schreiben Sie Oracle -Datenbankanweisungen Apr 11, 2025 pm 02:42 PM

Der Kern von Oracle SQL -Anweisungen ist ausgewählt, einfügen, aktualisiert und löschen sowie die flexible Anwendung verschiedener Klauseln. Es ist wichtig, den Ausführungsmechanismus hinter der Aussage wie die Indexoptimierung zu verstehen. Zu den erweiterten Verwendungen gehören Unterabfragen, Verbindungsabfragen, Analysefunktionen und PL/SQL. Häufige Fehler sind Syntaxfehler, Leistungsprobleme und Datenkonsistenzprobleme. Best Practices für Leistungsoptimierung umfassen die Verwendung geeigneter Indizes, die Vermeidung von Auswahl *, optimieren Sie, wo Klauseln und gebundene Variablen verwenden. Das Beherrschen von Oracle SQL erfordert Übung, einschließlich des Schreibens von Code, Debuggen, Denken und Verständnis der zugrunde liegenden Mechanismen.

Hinzufügen, Ändern und Löschen von MySQL Data Table Field Operation Operation Guide, addieren, ändern und löschen Apr 11, 2025 pm 05:42 PM

Feldbetriebshandbuch in MySQL: Felder hinzufügen, ändern und löschen. Feld hinzufügen: Alter table table_name hinzufügen column_name data_type [nicht null] [Standard default_value] [Primärschlüssel] [auto_increment] Feld ändern: Alter table table_name Ändern Sie Column_Name Data_type [nicht null] [diffault default_value] [Primärschlüssel] [Primärschlüssel]

Detaillierte Erläuterung verschachtelter Abfrageinstanzen in der MySQL -Datenbank Apr 11, 2025 pm 05:48 PM

Verschachtelte Anfragen sind eine Möglichkeit, eine andere Frage in eine Abfrage aufzunehmen. Sie werden hauptsächlich zum Abrufen von Daten verwendet, die komplexe Bedingungen erfüllen, mehrere Tabellen assoziieren und zusammenfassende Werte oder statistische Informationen berechnen. Beispiele hierfür sind zu findenen Mitarbeitern über den überdurchschnittlichen Löhnen, das Finden von Bestellungen für eine bestimmte Kategorie und die Berechnung des Gesamtbestellvolumens für jedes Produkt. Beim Schreiben verschachtelter Abfragen müssen Sie folgen: Unterabfragen schreiben, ihre Ergebnisse in äußere Abfragen schreiben (auf Alias oder als Klauseln bezogen) und optimieren Sie die Abfrageleistung (unter Verwendung von Indizes).

Was sind die Integritätsbeschränkungen von Oracle -Datenbanktabellen? Apr 11, 2025 pm 03:42 PM

Die Integritätsbeschränkungen von Oracle -Datenbanken können die Datengenauigkeit sicherstellen, einschließlich: nicht Null: Nullwerte sind verboten; Einzigartig: Einzigartigkeit garantieren und einen einzelnen Nullwert ermöglichen; Primärschlüssel: Primärschlüsselbeschränkung, Stärkung der einzigartigen und verboten Nullwerte; Fremdschlüssel: Verwalten Sie die Beziehungen zwischen Tabellen, Fremdschlüssel beziehen sich auf Primärtabellen -Primärschlüssel. Überprüfen Sie: Spaltenwerte nach Bedingungen begrenzen.

Was macht Oracle? Apr 11, 2025 pm 06:06 PM

Oracle ist das weltweit größte Softwareunternehmen für Datenbankverwaltungssystem (DBMS). Zu den Hauptprodukten gehören die folgenden Funktionen: Entwicklungstools für relationale Datenbankverwaltungssysteme (Oracle Database) (Oracle Apex, Oracle Visual Builder) Middleware (Oracle Weblogic Server, Oracle Soa Suite) Cloud -Dienst (Oracle Cloud Infrastructure) Analyse und Business Intelligence (Oracle Analytic

See all articles