Die auf GPT-3 basierende Trainingsaufgabe für große Sprachmodelle stellte einen neuen Rekord auf: Die NVIDIA H100-Beschleunigerkarte dauerte nur 11 Minuten-IT Industrie-php.cn

Die auf GPT-3 basierende Trainingsaufgabe für große Sprachmodelle stellte einen neuen Rekord auf: Die NVIDIA H100-Beschleunigerkarte dauerte nur 11 Minuten

PHPz

Freigeben： 2023-06-28 21:02:02

nach vorne

1346 Leute haben es durchsucht

Laut Nachrichten vom 28. Juni hat die boomende Entwicklung der KI-Technologie die Grafikkarten von NVIDIA zu einem mit Spannung erwarteten und beliebten Produkt auf dem Markt gemacht. Vor allem die High-End-Beschleunigerkarte H100, die für mehr als 250.000 Yuan verkauft wird, ist auf dem Markt jedoch Mangelware. Auch die Leistung dieser Beschleunigerkarte ist sehr erstaunlich. Die neuesten KI-Testergebnisse zeigen, dass die große Sprachmodell-Trainingsaufgabe auf Basis von GPT-3 mit einer Abschlusszeit von nur 11 Minuten einen neuen Rekord aufgestellt hat.

基于GPT-3的大语言模型训练任务刷新记录：NVIDIA H100加速卡仅用11分钟

Wie dem Herausgeber bekannt ist, hat MLCommons, eine offene Branchenallianz im Bereich maschinelles Lernen und künstliche Intelligenz, die neueste MLPerf-Benchmark-Bewertung veröffentlicht. Es umfasst 8 Lasttests, darunter den LLM-Test für große Sprachmodelle basierend auf dem GPT-3-Open-Source-Modell, der hohe Anforderungen an die Bewertung der KI-Leistung der Plattform stellt.

Die am Test teilnehmende NVIDIA-Plattform besteht aus 896 Intel Xeon 8462Y+ Prozessoren und 3584 H100-Beschleunigerkarten. Sie ist die einzige unter allen teilnehmenden Plattformen, die alle Tests bestehen kann. Darüber hinaus stellte die NVIDIA-Plattform einen neuen Rekord auf. Bei der wichtigsten GPT-3-basierten Trainingsaufgabe für große Sprachen benötigte die H100-Plattform nur 10,94 Minuten. Im Vergleich dazu schloss die Intel-Plattform mit 96 Xeon 8380-Prozessoren und 96 Habana Gaudi2 AI-Chips den gleichen Test ab Minuten.

Die Leistung der H100-Plattform ist fast 30-mal so hoch wie die der Intel-Plattform. Natürlich gibt es einen großen Unterschied in der Größe der beiden Plattformen. Aber selbst wenn nur 768 H100-Beschleunigerkarten für das Training verwendet werden, beträgt die benötigte Zeit immer noch nur 45,6 Minuten und ist damit deutlich länger als der KI-Chip, der die Intel-Plattform nutzt.

Die H100-Beschleunigerkarte verwendet den GH100-GPU-Kern, der mit einem maßgeschneiderten TSMC-4-nm-Prozess hergestellt wird, und verfügt über 80 Milliarden Transistoren. Es integriert 18432 CUDA-Kerne, 576 Tensorkerne und 60 MB sekundären Cache und unterstützt 6144-Bit-HBM-Speicher mit hoher Bandbreite und PCIe 5.0-Schnittstelle.

基于GPT-3的大语言模型训练任务刷新记录：NVIDIA H100加速卡仅用11分钟

Die H100-Computerkarte ist in den Ausführungen SXM und PCIe 5.0 erhältlich. Die SXM-Version verfügt über 15.872 CUDA-Kerne und 528 Tensor-Kerne, während die PCIe 5.0-Version über 14.952 CUDA-Kerne und 456 Tensor-Kerne verfügt. Der Stromverbrauch der Karte kann bis zu 700 W betragen.

In Bezug auf die Leistung kann die H100-Beschleunigerkarte 60 Billionen Berechnungen pro Sekunde bei FP64/FP32-Berechnungen und 2000 Billionen Mal pro Sekunde bei FP16-Berechnungen erreichen. Darüber hinaus unterstützt es auch TF32-Berechnungen, die 1000 Billionen Mal pro Sekunde erreichen können, was dem Dreifachen von A100 entspricht. In Bezug auf die FP8-Berechnung kann die Leistung der H100-Beschleunigerkarte 4.000 Billionen Operationen pro Sekunde erreichen, was dem Sechsfachen der A100 entspricht.

Das obige ist der detaillierte Inhalt vonDie auf GPT-3 basierende Trainingsaufgabe für große Sprachmodelle stellte einen neuen Rekord auf: Die NVIDIA H100-Beschleunigerkarte dauerte nur 11 Minuten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!