Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois-IA-php.cn

Table des matières

En concurrence avec l'A100, la vitesse est 1,7 fois plus rapide

TPU vs GPU

Maison

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

PHPz

Apr 07, 2023 pm 02:54 PM

谷歌 ai

Bien que Google ait déployé la puce d'IA la plus puissante de l'époque, TPU v4, dans son propre centre de données dès 2020.

Mais ce n’est que le 4 avril de cette année que Google a annoncé pour la première fois les détails techniques de ce supercalculateur IA.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Adresse papier : https://arxiv.org/abs/2304.01433

Par rapport au TPU v3, les performances du TPU v4 sont 2,1 fois supérieures, et après avoir intégré 4096 puces, les performances du supercalculateur a été amélioré de 10 fois.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

De plus, Google affirme également que sa propre puce est plus rapide et plus économe en énergie que NVIDIA A100.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

En concurrence avec l'A100, la vitesse est 1,7 fois plus rapide

Dans le document, Google a déclaré que pour des systèmes de taille comparable, le TPU v4 peut fournir des performances 1,7 fois supérieures à celles du Nvidia A100, tout en améliorant également l'efficacité énergétique. 1,9 fois.

De plus, la vitesse de calcul de Google est environ 4,3 fois à 4,5 fois plus rapide que celle de Graphcore IPU Bow.

Google a présenté le package TPU v4, ainsi que 4 packages montés sur le circuit imprimé.

Comme le TPU v3, chaque TPU v4 contient deux TensorCore (TC). Chaque TC contient quatre unités de multiplication matricielle (MXU) 128 x 128, une unité de traitement vectoriel (VPU) avec 128 canaux (16 ALU par canal) et 16 Mio de mémoire vectorielle (VMEM).

Deux TC partagent une mémoire commune de 128 MiB (CMEM).

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Il convient de noter que la puce A100 a été lancée en même temps que le TPU de quatrième génération de Google, alors comment comparer ses performances spécifiques ?

Google a démontré les performances les plus rapides de chaque DSA sur 5 benchmarks MLPerf séparément. Ceux-ci incluent BERT, ResNET, DLRM, RetinaNet et MaskRCNN.

Parmi eux, Graphcore IPU a soumis les résultats sur BERT et ResNET.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Ce qui suit montre les résultats des deux systèmes sur ResNet et BERT Les lignes pointillées entre les points sont des interpolations basées sur le nombre de chips.

Les résultats MLPerf pour les TPU v4 et A100 s'adaptent à des systèmes plus grands que l'IPU (4 096 puces contre 256 puces).

Pour des systèmes de taille similaire, TPU v4 est 1,15 fois plus rapide que l'A100 sur BERT et environ 4,3 fois plus rapide que l'IPU. Pour ResNet, TPU v4 est respectivement 1,67x et environ 4,5x plus rapide.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Pour la consommation d'énergie sur le benchmark MLPerf, l'A100 a utilisé en moyenne 1,3 à 1,9 fois plus d'énergie.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Les pics de FLOPS prédisent-ils les performances réelles ? De nombreuses personnes dans le domaine de l'apprentissage automatique pensent que le pic d'opérations en virgule flottante par seconde est un bon indicateur des performances, mais en réalité ce n'est pas le cas.

Par exemple, TPU v4 est 4,3x à 4,5x plus rapide sur deux benchmarks MLPerf que IPU Bow sur un système de même taille, bien qu'il n'ait qu'un avantage de 1,10x en termes d'opérations de pointe en virgule flottante par seconde.

Un autre exemple est que le pic d'opérations en virgule flottante par seconde de l'A100 est 1,13 fois celui du TPU v4, mais pour le même nombre de puces, le TPU v4 est 1,15 fois à 1,67 fois plus rapide.

Comme indiqué ci-dessous, le modèle Roofline est utilisé pour montrer la relation entre le pic de FLOPS/seconde et la bande passante mémoire.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Alors, la question est : pourquoi Google ne se compare-t-il pas au dernier H100 de Nvidia ?

Google a déclaré que le H100 ayant été fabriqué à l'aide d'une technologie plus récente après le lancement des puces Google, il n'a pas comparé son produit de quatrième génération avec la puce phare H100 actuelle de Nvidia.

Cependant, Google a laissé entendre qu'il développait un nouveau TPU pour concurrencer le Nvidia H100, mais n'a pas fourni de détails. Jouppi, chercheur chez Google, a déclaré dans une interview à Reuters que Google disposait d'une "ligne de production pour les futures puces".

TPU vs GPU

Pendant que ChatGPT et Bard « se battent », deux géants travaillent également dur en coulisses pour les faire fonctionner : le GPU (unité de traitement graphique) alimenté par CUDA de Nvidia et le TPU (Tensor) personnalisé de Google. unité de traitement).

En d'autres termes, il ne s'agit plus de ChatGPT contre Bard, mais de TPU contre GPU et de l'efficacité avec laquelle ils peuvent effectuer une multiplication matricielle.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

En raison de son excellente conception en architecture matérielle, le GPU de NVIDIA est très adapté aux tâches de multiplication matricielle - réalisant efficacement un traitement parallèle entre plusieurs cœurs CUDA.

Ainsi, les modèles de formation sur GPU sont devenus un consensus dans le domaine du deep learning depuis 2012, et cela n'a pas changé à ce jour.

Avec le lancement de NVIDIA DGX, NVIDIA est en mesure de fournir des solutions matérielles et logicielles uniques pour presque toutes les tâches d'IA, que les concurrents ne peuvent pas fournir en raison du manque de droits de propriété intellectuelle.

En revanche, Google a lancé l'unité de traitement tensoriel (TPU) de première génération en 2016, qui comprenait non seulement un ASIC (circuit intégré spécifique à l'application) personnalisé optimisé pour le calcul tensoriel, mais ciblait également son propre framework TensorFlow. été optimisé. Cela donne également au TPU un avantage dans d'autres tâches informatiques d'IA en plus de la multiplication matricielle, et peut même accélérer les tâches de réglage fin et d'inférence.

De plus, les chercheurs de Google DeepMind ont également trouvé un moyen de créer un meilleur algorithme de multiplication matricielle : AlphaTensor.

Cependant, même si Google a obtenu de bons résultats grâce à une technologie auto-développée et à des méthodes émergentes d'optimisation informatique de l'IA, la coopération approfondie à long terme entre Microsoft et NVIDIA a simultanément élargi la portée des deux parties en tirant parti de leurs accumulations respectives. dans l’industrie.

Le TPU de quatrième génération

En 2021, lors de la conférence Google I/O, Pichai a annoncé pour la première fois la puce IA TPU v4 de dernière génération de Google.

"C'est le système le plus rapide que nous ayons jamais déployé chez Google et c'est une étape historique pour nous."

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Cette amélioration est devenue le supercalculateur IA de l'entreprise. alors que les grands modèles de langage comme Bard de Google ou ChatGPT d'OpenAI ont explosé en taille des paramètres.

Cela signifie qu'ils sont bien plus grands que la capacité qu'une seule puce peut stocker, et la demande de puissance de calcul est un énorme « trou noir ».

Ces grands modèles doivent donc être répartis sur des milliers de puces, puis ces puces doivent travailler ensemble pendant des semaines, voire plus, pour entraîner le modèle.

Actuellement, PaLM, le plus grand modèle de langage divulgué publiquement par Google à ce jour, compte 540 milliards de paramètres, qui ont été divisés en deux superordinateurs de 4 000 puces pour une formation en 50 jours.

Google a déclaré que son supercalculateur peut facilement reconfigurer les connexions entre les puces pour éviter les problèmes et effectuer des réglages de performances.

Le chercheur Google Norm Jouppi et l'ingénieur émérite de Google David Patterson ont écrit dans un article de blog sur le système :

"La commutation de circuits facilite le contournement des composants défaillants. Cette flexibilité nous permet même de modifier les topologies d'interconnexion ultra-informatiques. pour accélérer les performances des modèles d'apprentissage automatique.

Bien que Google ne publie que maintenant des détails sur son supercalculateur, celui-ci est présent en Oklahoma depuis 2020. Connectez-vous au centre de données du comté de Mayes.

Google a déclaré que Midjourney avait utilisé ce système pour entraîner son modèle, et la dernière version de la V5 permet à tout le monde de voir l'incroyable génération d'images.

Le supercalculateur IA de Google écrase le NVIDIA A100 ! Les performances du TPU v4 ont été multipliées par 10, les détails divulgués pour la première fois

Récemment, Pichai a déclaré dans une interview avec le New York Times que Bard serait transféré de LaMDA à PaLM.

Maintenant, avec la bénédiction du supercalculateur TPU v4, Bard ne fera que devenir plus fort.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7513

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment implémenter le tri des fichiers par Debian Readdir Apr 13, 2025 am 09:06 AM

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Comment définir le niveau de journal Debian Apache Apr 13, 2025 am 08:33 AM

Cet article décrit comment ajuster le niveau de journalisation du serveur Apacheweb dans le système Debian. En modifiant le fichier de configuration, vous pouvez contrôler le niveau verbeux des informations de journal enregistrées par Apache. Méthode 1: Modifiez le fichier de configuration principal pour localiser le fichier de configuration: le fichier de configuration d'Apache2.x est généralement situé dans le répertoire / etc / apache2 /. Le nom de fichier peut être apache2.conf ou httpd.conf, selon votre méthode d'installation. Modifier le fichier de configuration: Ouvrez le fichier de configuration avec les autorisations racine à l'aide d'un éditeur de texte (comme Nano): Sutonano / etc / apache2 / apache2.conf

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Comment Debian OpenSSL empêche les attaques de l'homme au milieu Apr 13, 2025 am 10:30 AM

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

Comment apprendre Debian Syslog Apr 13, 2025 am 11:51 AM

Ce guide vous guidera pour apprendre à utiliser Syslog dans Debian Systems. Syslog est un service clé dans les systèmes Linux pour les messages du système de journalisation et du journal d'application. Il aide les administrateurs à surveiller et à analyser l'activité du système pour identifier et résoudre rapidement les problèmes. 1. Connaissance de base de Syslog Les fonctions principales de Syslog comprennent: la collecte et la gestion des messages journaux de manière centralisée; Prise en charge de plusieurs formats de sortie de journal et des emplacements cibles (tels que les fichiers ou les réseaux); Fournir des fonctions de visualisation et de filtrage des journaux en temps réel. 2. Installer et configurer syslog (en utilisant RSYSLOG) Le système Debian utilise RSYSLOG par défaut. Vous pouvez l'installer avec la commande suivante: SudoaptupDatesud

Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Conseils de configuration du pare-feu Debian Mail Server Apr 13, 2025 am 11:42 AM

La configuration du pare-feu d'un serveur de courrier Debian est une étape importante pour assurer la sécurité du serveur. Voici plusieurs méthodes de configuration de pare-feu couramment utilisées, y compris l'utilisation d'iptables et de pare-feu. Utilisez les iptables pour configurer le pare-feu pour installer iptables (sinon déjà installé): Sudoapt-getUpDaSuDoapt-getinstalliptableView Règles actuelles iptables: Sudoiptable-L Configuration

See all articles