基於GPT-3的大語言模型訓練任務刷新記錄：NVIDIA H100加速卡僅用11分鐘-IT業界-PHP中文網

基於GPT-3的大語言模型訓練任務刷新記錄：NVIDIA H100加速卡僅用11分鐘

PHPz

發布： 2023-06-28 21:02:02

轉載

1352 人瀏覽過

6月28日消息，AI技術的蓬勃發展使得NVIDIA的顯示卡成為市場上備受矚目的熱門產品。尤其是高階的H100加速卡，其售價超過25萬元，然而市場供不應求。這張加速卡的表現也非常驚人，最新的AI測試結果顯示，基於GPT-3的大語言模型訓練任務刷新了記錄，完成時間僅為11分鐘。

基于GPT-3的大语言模型训练任务刷新记录：NVIDIA H100加速卡仅用11分钟

據小編了解，機器學習及人工智慧領域的開放產業聯盟MLCommons發布了最新的MLPerf基準評測。其中包括8個負載測試，其中就包含基於GPT-3開源模型的LLM大語言模型測試，這對於評估平台的AI效能提出了很高的要求。

參與測試的NVIDIA平台由896個Intel至強8462Y 處理器和3584個H100加速卡組成，是所有參與平台中唯一能夠完成所有測試的。並且，NVIDIA平台刷新了記錄。在關鍵的基於GPT-3的大語言模型訓練任務中，H100平台僅用了10.94分鐘，與之相比，採用96個至強8380處理器和96個Habana Gaudi2 AI晶片構建的Intel平台完成同樣測試所需的時間為311.94分鐘。

H100平台的效能幾乎是Intel平台的30倍，當然，兩套平台的規模有很大差異。但即便只使用768個H100加速卡進行訓練，所需時間仍只有45.6分鐘，遠超過採用Intel平台的AI晶片。

H100加速卡採用GH100 GPU核心，客製化版台積電4nm製程製造，擁有800億個電晶體。它整合了18432個CUDA核心、576個張量核心和60MB的二級緩存，支援6144-bit HBM高頻寬記憶體以及PCIe 5.0介面。

基于GPT-3的大语言模型训练任务刷新记录：NVIDIA H100加速卡仅用11分钟

H100計算卡提供SXM和PCIe 5.0兩種樣式。 SXM版本擁有15872個CUDA核心和528個Tensor核心，而PCIe 5.0版本則擁有14952個CUDA核心和456個Tensor核心。該卡的功耗最高可達700W。

就效能而言，H100加速卡在FP64/FP32運算方面能夠達到每秒60萬億次的運算能力，而在FP16運算方面達到每秒2000萬億次的運算能力。此外，它還支援TF32計算，每秒可達1000兆次，是A100的三倍。而在FP8運算方面，H100加速卡的效能可達每秒4000兆次，是A100的六倍。

以上是基於GPT-3的大語言模型訓練任務刷新記錄：NVIDIA H100加速卡僅用11分鐘的詳細內容。更多資訊請關注PHP中文網其他相關文章！