tülu3:語言模型的革命性開源後培訓框架
自然語言處理領域(NLP)見證了出色的進步,培訓後技術在增強語言模型能力方面起著關鍵作用。 儘管OpenAI的GPT-4和Anthropic的Claude之類的專有模型占據了市場的主導地位,但由於獲得培訓後的數據和方法論的機會有限,因此開源替代方案通常會落後於市場。 Tülu3通過引入尖端,完全開放的培訓後培訓框架,結合了創新技術和嚴格的評估方法,從而彌合了這一差距。本文深入研究Tülu3405b AI模型,探索其培訓過程和可訪問性。
密鑰學習目標:
了解Tülu3開源型號。
- 掌握模型的功能。
- 探索Tülu3的四階段訓練後管道。
學習如何訪問tülu3 405b ai chatbot。 - >
將Tülu3的性能與諸如Llama 3.1 8b-Instruct的現有模型進行比較。 -
-
>本文是數據科學博客馬拉鬆的一部分。 >
目錄的表:
什麼是tülu3? >
>tülu3數據
培訓方法-
評估方法-
>訪問Llama-3.1-Tulu-3-405b-
>步驟1:通過huggingface - 加載模型
步驟2:使用VLLM - 執行
步驟3:利用聊天模板-
-
>性能和比較-
tülu3的主要貢獻
結論-
常見問題-
- 什麼是tülu3?
-
>通過艾倫AI研究所與華盛頓大學Tülu3之間的合作開發,可確保有關培訓後數據集,方法和評估框架的完全透明度。 Tülu3建立在Llama 3.1基礎模型的基礎上,超過了其他指令調節的開放型模型的性能,甚至匹配了諸如GPT-4O-Mini和Claude 3.5-Haiku之類的封閉模型。 它旨在完善跨各種技能領域的開源語言模型,包括:>
知識檢索(mmlu基準)
>推理(BigBenchhard,drop)
>數學功能(GSM8K,數學數據集)
- >編碼能力(HumaneVal,CodealPaca)
>指令依從性(Ifeval,Alpacaeval 2)安全與合規性(Tülu3安全套件)>
- >tülu3數據
-
- >數據在培訓和精煉語言模型中至關重要。 Tülu3利用了一個多樣化的,精心策劃的數據集,將公開資源與合成生成的數據相結合。 來源包括:
- >公共數據集(Flan V2,開放助理,無機器人,Wildchat)
- 特定於技能的數據集(Numinamath,Sciriff,OpenMathInstruct)
- >使用角色驅動的方法生成的合成數據集,用於以下數學,編碼和說明等技能
違規與安全數據(Wildjailbreak,Coconot,Wildguardmix)-
一個關鍵步驟涉及提示淨化以防止測試集污染,採用8克匹配以確保評估數據不會與培訓數據重疊。
訓練方法
>tülu3使用四個階段的訓練後管道:
> 數據策劃:- >提示從各種數據集進行策劃,並用於特定技能,經過嚴格的淨化。
監督的微調(SFT):高質量的指令遵循數據訓練模型。數據混合實驗優化了跨任務的性能。
-
>偏好微調(DPO):成對偏好數據微型模型。 policy數據將Tülu的3個輸出與其他模型進行了比較。
>
通過可驗證的獎勵(RLVR)- 增強學習:這種新穎的RL方法僅獎勵可驗證的正確答案,特別有益於數學和精確的指導。
>
-
評估方法
>tülu3介紹了Tülu3評估,這是一個標準化的透明評估框架:
開發評估(指導模型改進)
看不見的評估(測量過度擬合和概括)
安全評估(評估合規性和魯棒性)-
基準包括MMLU,GSM8K,Bigbenchhard,Humaneval和Alpacaeval 2。所有評估和淨化工具都是開源的。
- >訪問Llama-3.1-tulu-3-405b
- >
>tülu3是一個高級指導跟隨模型家族。 這是使用Llama-3.1-tulu-3-405b:>
>
步驟1:通過huggingface 加載模型
步驟2:使用VLLM
執行
>
步驟3:使用聊天模板from transformers import AutoModelForCausalLM
tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3-405B")
登入後複製
>
性能和比較vllm serve allenai/Llama-3.1-Tulu-3-405B --max_model_len=8192
登入後複製
<code>How are you doing?
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?</code>
登入後複製
tülu3在開放式模型中取得了最新的結果,優於美洲拉瑪3.1指令,Mistral和Qwen 2.5指令。 在70b型號上,它可以與Claude 3.5 Haiku和GPT-4O-Mini匹配。
>tülu3的關鍵貢獻
>tülu3顯著提高了開放語言模型訓練後:>
- >開源數據集,代碼和培訓食譜,以透明和可重複性。
- 實施高級去污染策略。
- 利用可擴展的偏好調諧方法。
- >通過可驗證的獎勵(RLVR)介紹加強學習。 >
提供強大的,可重複的評估框架。 - >
結論
tülu3為開放權重模型設定了一個新的基準測試,表明開源模型可以與專有解決方案競爭。 它的開源自然促進了進一步的創新和研究。
>常見問題
Q1。什麼是tülu3? A.一個開源後培訓框架增強語言模型。
Q2。 RLVR如何改善性能?
Q3。我可以微調tülu3嗎?
Q4。 Tülu3與GPT-4的相比。
Q5。我在哪裡可以訪問tülu3?
(注意:圖像URL保持不變。)>
以上是tülu3 405b:培訓後推進開放語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!