NVIDIA 的 Llama 3.1-Nemotron-51B 以卓越的準確性和效率樹立了 AI 的新基準,可在單一 GPU 上實現高工作負載。
NVIDIA 的最新語言模型 Llama 3.1-Nemotron-51B 以卓越的準確性和效率樹立了 AI 性能的新標準。該模型標誌著在擴展 LLM 以適應單一 GPU 方面的進步,即使在高工作負載下也是如此。
NVIDIA 推出了一個名為 Llama 3.1-Nemotron-51B 的新語言模型,有望以卓越的準確性和效率實現 AI 性能的飛躍。該模型源自 Meta 的 Llama-3.1-70B,並利用新穎的神經架構搜尋 (NAS) 方法來優化準確性和效率。值得注意的是,即使在高工作負載下,該模型也可以安裝在單一 NVIDIA H100 GPU 上,使其更易於使用且更具成本效益。
Llama 3.1-Nemotron-51B 模型的推理速度比前代模型快 2.2 倍,同時保持幾乎相同的精確度水準。由於其減少的記憶體佔用和最佳化的架構,這種效率使得推理期間單一 GPU 上的工作負載增加了 4 倍。
採用大型語言模型 (LLM) 的挑戰之一是其推理成本較高。 Llama 3.1-Nemotron-51B 模型透過在準確性和效率之間提供平衡權衡來解決這個問題,使其成為從邊緣系統到雲端資料中心等各種應用的經濟高效的解決方案。此功能對於透過 Kubernetes 和 NIM 藍圖部署多個模型特別有用。
Nemotron 模型使用 TensorRT-LLM 引擎進行了最佳化,以實現更高的推理性能,並打包為 NVIDIA NIM 推理微服務。此設定簡化並加速了生成式 AI 模型在 NVIDIA 加速基礎架構(包括雲端、資料中心和工作站)上的部署。
Llama 3.1-Nemotron-51B-Instruct 模型是使用高效的 NAS 技術和訓練方法構建的,可以創建針對特定 GPU 優化的非標準 Transformer 模型。該方法包括一個塊蒸餾框架,用於並行訓練各種塊變體,確保高效且準確的推理。
NVIDIA 的 NAS 方法可讓使用者在準確性和效率之間選擇最佳平衡。例如,Llama-3.1-Nemotron-40B-Instruct 變體的創建是為了優先考慮速度和成本,與父模型相比,速度提高了 3.2 倍,但精度略有下降。
Llama 3.1-Nemotron-51B-Instruct模型已針對多項行業標準進行了對標,展示了其在各種場景下的卓越性能。它使參考模型的吞吐量翻倍,使其在多個用例中具有成本效益。
Llama 3.1-Nemotron-51B-Instruct 模型為使用者和公司提供了一系列新的可能性,以經濟高效地利用高精度基礎模型。其準確性和效率之間的平衡使其成為對建構者有吸引力的選擇,並突顯了 NAS 方法的有效性,NVIDIA 旨在將其擴展到其他模型。
以上是NVIDIA 推出 Llama 3.1-Nemotron-51B:準確度與效率的飛躍的詳細內容。更多資訊請關注PHP中文網其他相關文章!