英偉達開源最強通用模型Nemotron-4 340B-人工智慧-PHP中文網

效能超越 Llama-3，主要用於合成資料。

英偉達的通用大模型 Nemotron，開源了最新的 3,400 億參數版本。

本週五，英偉達宣布推出 Nemotron-4 340B。它包含一系列開放模型，開發人員可以使用這些模型產生合成數據，用於訓練大語言模型（LLM），可用於醫療健康、金融、製造、零售等所有行業的商業應用。

高品質的訓練資料在自訂LLM 的反應效能、準確性和品質中起著至關重要的作用—— 但強大的資料集經常是昂貴且難以訪問的。透過獨特的開放模型許可，Nemotron-4 340B 為開發人員提供了一種免費、可擴展的方式來產生合成數據，從而幫助人們建立強大的 LLM。

Nemotron-4 340B 系列包括基礎、Instruct 和 Reward 模型，它們形成了一個 pipeline，用於產生訓練和改進 LLM 的合成資料。這些模型經過最佳化，可與 NVIDIA NeMo 配合使用，後者是一個用於端到端模型訓練的開源框架，包括資料管理、客製化和評估。它們也針對開源 NVIDIA TensorRT-LLM 庫的推理進行了最佳化。

英威達表示，Nemotron-4 340B 現已可從 Hugging Face 下載。開發人員很快就能在 ai.nvidia.com 上存取這些模型，它們將被打包為 NVIDIA NIM 微服務，並帶有可在任何地方部署的標準應用程式介面。

Hugging Face 下載：https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911

導航Nemotron 以產生合成資料

大語言模型可以幫助開發人員在無法存取大型、多樣化標記資料集的情況下產生合成訓練資料。

Nemotron-4 340B Instruct 模型創建了多樣化的合成數據，模仿了現實世界數據的特徵，有助於提高數據質量，從而提高自定義LLM 在各領域的性能和魯棒性。

為了提高 AI 產生的資料的質量，開發人員可以使用 Nemotron-4 340B Reward 模型來篩選高品質的回應。 Nemotron-4 340B Reward 根據五個屬性對回應進行評分：可用性、正確性、連貫性、複雜性和冗長性。它目前在 AI2 創建的 Hugging Face RewardBench 排行榜上名列第一，用於評估獎勵模型的能力、安全性和缺陷。

在這個合成資料 pipeline 中，（1）Nemotron-4 340B Instruct 模型用於產生基於文字的合成輸出。然後，評估模型（2） Nemotron-4 340B Reward 評估產生的文本並提供回饋，從而指導迭代改進並確保合成數據的準確。

研究人員也可以使用自己的專有數據，結合已包含的HelpSteer2 資料集，來客製化Nemotron-4 340B 基礎模型，從而建立自有的Instruct 模型或獎勵模型。

中與論文下寫時：https://d1x31131120 月/31000 月論文：https://d10x31/13102 月/3100 月/31313151313131313131論文#200020313131931313131313130.論文0030313131313130313130.論文0000 月

##方法介紹

Nemotron-4-340B-Base 模型架構是一種標準的僅解碼器Transformer 架構，具有因果關係力掩碼、旋轉位置嵌入(RoPE)、SentencePiece tokenizer 等。 Nemotron-4-340B-Base 的超參數如表 1 所示。它有 94 億個嵌入參數和 3316 億個非嵌入參數。

下表為Nemotron-4-340B-Base 模型的一些訓練細節，表中總結了批次大小漸變的3 個階段，包括每次迭代時間和模型FLOP/s 利用率。 ###############為了開發強大的獎勵模型，英偉達收集了一個包含 10k 人類偏好資料的資料集，稱為 HelpSteer2，並公開發布了這個資料集。

資料集位址：https://huggingface.co/datasets/nvidia/HelpSteer2

##回歸獎勵模型Nemotron-4-340B-Reward 建立在Nemotron-4-340B-Base 模型之上，並用新的獎勵頭替換最後的softmax 層。這個頭是一個線性投影，它將最後一層的隱藏狀態映射到 HelpSteer 屬性（有用性、正確性、連貫性、複雜性、冗長性）的五維向量中。在推理過程中，這些屬性值可以透過加權和聚合為整體獎勵。這種獎勵模式為訓練 Nemotron-4-340B-Instruct 提供了堅實的基礎。

該研究發現這樣的模型在RewardBench 上表現非常出色：

用NeMo 微調，用TensorRT-LLM 優化推理

使用開源的NVIDIA NeMo 和NVIDIA TensorRT-LLM，開發者可以優化他們的指導模型和獎勵模型的效率，從而產生合成數據並對回應進行評分。

所有Nemotron-4 340B 模型都使用TensorRT-LLM 進行了最佳化，以利用張量並行性，這是一種模型並行性，其中單一權重矩陣在多個GPU 和伺服器上分割，從而實現大規模的高效推理。

Nemotron-4 340B Base 經過 9 兆個 token 的訓練，可以使用 NeMo 框架進行定制，以適應特定的用例或領域。這種微調過程受益於大量的預訓練數據，並為特定的下游任務提供更準確的輸出。

在這當中，NeMo 框架提供了多種客製化方法，包括監督微調和參數高效微調方法，如低秩自適應 (LoRA)。

為了提升模型質量，開發者可以使用 NeMo Aligner 和 Nemotron-4 340B Reward 註釋的資料集對其模型進行對齊。對齊是訓練大型語言模型的關鍵步驟，其中模型行為透過使用類似 RLHF 演算法進行微調，以確保其輸出安全、準確、符合上下文且與其既定目標一致。

尋求企業級支援和生產環境安全的企業也可以透過雲端原生的 NVIDIA AI Enterprise 軟體平台存取 NeMo 和 TensorRT-LLM。該平台為生成式 AI 基礎模型提供了加速和高效的運行時環境。

評測資料

#圖1 突顯了Nemotron-4 340B 模型家族在選定任務中的準確性。具體來說：

Nemotron-4-340B-Base 在ARC-Challenge、MMLU 和BigBench Hard 基準等常識推理任務上與Llama-3 70B、Mixtral 8x22B 和常識推理任務上與Llama-3 70B、Mixtral 8x22B 和Qwen-2 72B 等開放存取基礎模型相媲美。

在指令遵循和聊天功能方面，Nemotron-4-340B-Instruct 超越了對應的指令模型。 Nemotron-4-340B Reward 在 RewardBench 上實現了最高準確率，甚至超越了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 等專有模型。