Laut Nachrichten vom 28. Juni hat die boomende Entwicklung der KI-Technologie die Grafikkarten von NVIDIA zu einem mit Spannung erwarteten und beliebten Produkt auf dem Markt gemacht. Vor allem die High-End-Beschleunigerkarte H100, die für mehr als 250.000 Yuan verkauft wird, ist auf dem Markt jedoch Mangelware. Auch die Leistung dieser Beschleunigerkarte ist sehr erstaunlich. Die neuesten KI-Testergebnisse zeigen, dass die große Sprachmodell-Trainingsaufgabe auf Basis von GPT-3 mit einer Abschlusszeit von nur 11 Minuten einen neuen Rekord aufgestellt hat.
Wie dem Herausgeber bekannt ist, hat MLCommons, eine offene Branchenallianz im Bereich maschinelles Lernen und künstliche Intelligenz, die neueste MLPerf-Benchmark-Bewertung veröffentlicht. Es umfasst 8 Lasttests, darunter den LLM-Test für große Sprachmodelle basierend auf dem GPT-3-Open-Source-Modell, der hohe Anforderungen an die Bewertung der KI-Leistung der Plattform stellt.
Die am Test teilnehmende NVIDIA-Plattform besteht aus 896 Intel Xeon 8462Y+ Prozessoren und 3584 H100-Beschleunigerkarten. Sie ist die einzige unter allen teilnehmenden Plattformen, die alle Tests bestehen kann. Darüber hinaus stellte die NVIDIA-Plattform einen neuen Rekord auf. Bei der wichtigsten GPT-3-basierten Trainingsaufgabe für große Sprachen benötigte die H100-Plattform nur 10,94 Minuten. Im Vergleich dazu schloss die Intel-Plattform mit 96 Xeon 8380-Prozessoren und 96 Habana Gaudi2 AI-Chips den gleichen Test ab Minuten.
Die Leistung der H100-Plattform ist fast 30-mal so hoch wie die der Intel-Plattform. Natürlich gibt es einen großen Unterschied in der Größe der beiden Plattformen. Aber selbst wenn nur 768 H100-Beschleunigerkarten für das Training verwendet werden, beträgt die benötigte Zeit immer noch nur 45,6 Minuten und ist damit deutlich länger als der KI-Chip, der die Intel-Plattform nutzt.
Die H100-Beschleunigerkarte verwendet den GH100-GPU-Kern, der mit einem maßgeschneiderten TSMC-4-nm-Prozess hergestellt wird, und verfügt über 80 Milliarden Transistoren. Es integriert 18432 CUDA-Kerne, 576 Tensorkerne und 60 MB sekundären Cache und unterstützt 6144-Bit-HBM-Speicher mit hoher Bandbreite und PCIe 5.0-Schnittstelle.
Die H100-Computerkarte ist in den Ausführungen SXM und PCIe 5.0 erhältlich. Die SXM-Version verfügt über 15.872 CUDA-Kerne und 528 Tensor-Kerne, während die PCIe 5.0-Version über 14.952 CUDA-Kerne und 456 Tensor-Kerne verfügt. Der Stromverbrauch der Karte kann bis zu 700 W betragen.
In Bezug auf die Leistung kann die H100-Beschleunigerkarte 60 Billionen Berechnungen pro Sekunde bei FP64/FP32-Berechnungen und 2000 Billionen Mal pro Sekunde bei FP16-Berechnungen erreichen. Darüber hinaus unterstützt es auch TF32-Berechnungen, die 1000 Billionen Mal pro Sekunde erreichen können, was dem Dreifachen von A100 entspricht. In Bezug auf die FP8-Berechnung kann die Leistung der H100-Beschleunigerkarte 4.000 Billionen Operationen pro Sekunde erreichen, was dem Sechsfachen der A100 entspricht.
Das obige ist der detaillierte Inhalt vonDie auf GPT-3 basierende Trainingsaufgabe für große Sprachmodelle stellte einen neuen Rekord auf: Die NVIDIA H100-Beschleunigerkarte dauerte nur 11 Minuten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!