Selon l'actualité du 28 juin, le développement fulgurant de la technologie IA a fait des cartes graphiques NVIDIA un produit très attendu et populaire sur le marché. Surtout la carte accélératrice haut de gamme H100, qui se vend à plus de 250 000 yuans, mais le marché est rare. Les performances de cette carte accélératrice sont également très étonnantes. Les derniers résultats des tests d'IA montrent que la tâche de formation de grands modèles de langage basée sur GPT-3 a établi un nouveau record, avec un temps d'exécution de seulement 11 minutes.
Comme l'éditeur l'a compris, MLCommons, une alliance industrielle ouverte dans le domaine de l'apprentissage automatique et de l'intelligence artificielle, a publié la dernière évaluation de référence MLPerf. Il comprend 8 tests de charge, dont le test de grand modèle de langage LLM basé sur le modèle open source GPT-3, qui met en avant des exigences élevées pour évaluer les performances d'IA de la plateforme.
La plate-forme NVIDIA participant au test comprend 896 processeurs Intel Xeon 8462Y+ et 3584 cartes accélératrices H100. C'est la seule parmi toutes les plates-formes participantes à pouvoir réaliser tous les tests. De plus, la plateforme NVIDIA a établi un nouveau record. Dans la tâche clé de formation d'un grand modèle de langage basé sur GPT-3, la plate-forme H100 n'a pris que 10,94 minutes. En comparaison, la plate-forme Intel construite avec 96 processeurs Xeon 8380 et 96 puces Habana Gaudi2 AI a réalisé le même test. minutes.
Les performances de la plateforme H100 sont près de 30 fois supérieures à celles de la plateforme Intel. Bien entendu, il existe une grande différence dans l'échelle des deux plateformes. Mais même si seulement 768 cartes accélératrices H100 sont utilisées pour la formation, le temps requis n'est toujours que de 45,6 minutes, bien plus long que la puce IA utilisant la plateforme Intel.
La carte accélératrice H100 utilise le cœur GPU GH100, fabriqué avec un processus TSMC 4 nm personnalisé, et possède 80 milliards de transistors. Il intègre 18 432 cœurs CUDA, 576 cœurs tenseurs et 60 Mo de cache secondaire, et prend en charge la mémoire HBM à large bande passante de 6 144 bits et l'interface PCIe 5.0.
La carte informatique H100 est disponible dans les styles SXM et PCIe 5.0. La version SXM possède 15 872 cœurs CUDA et 528 cœurs Tensor, tandis que la version PCIe 5.0 possède 14 952 cœurs CUDA et 456 cœurs Tensor. La consommation électrique de la carte peut atteindre jusqu'à 700W.
En termes de performances, la carte accélératrice H100 peut réaliser 60 000 milliards de calculs par seconde dans les calculs FP64/FP32, et 2 000 000 milliards de fois par seconde dans les calculs FP16. En outre, il prend également en charge les calculs TF32, qui peuvent atteindre 1 000 billions de fois par seconde, soit trois fois celui de l'A100. En termes de calcul FP8, les performances de la carte accélératrice H100 peuvent atteindre 4 000 billions d'opérations par seconde, soit six fois celles de l'A100.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!