首頁 > 科技週邊 > 人工智慧 > tülu3 405b:培訓後推進開放語言模型

tülu3 405b:培訓後推進開放語言模型

Joseph Gordon-Levitt
發布: 2025-03-06 10:09:10
原創
868 人瀏覽過

tülu3:語言模型的革命性開源後培訓框架

自然語言處理領域(NLP)見證了出色的進步,培訓後技術在增強語言模型能力方面起著關鍵作用。 儘管OpenAI的GPT-4和Anthropic的Claude之類的專有模型占據了市場的主導地位,但由於獲得培訓後的數據和方法論的機會有限,因此開源替代方案通常會落後於市場。 Tülu3通過引入尖端,完全開放的培訓後培訓框架,結合了創新技術和嚴格的評估方法,從而彌合了這一差距。本文深入研究Tülu3405b AI模型,探索其培訓過程和可訪問性。

密鑰學習目標:

了解Tülu3開源型號。
  • 掌握模型的功能。
  • 探索Tülu3的四階段訓練後管道。
  • 學習如何訪問tülu3 405b ai chatbot。
  • >
  • 將Tülu3的性能與諸如Llama 3.1 8b-Instruct的現有模型進行比較。
>本文是數據科學博客馬拉鬆的一部分。

> 目錄的表:

什麼是tülu3? > >tülu3數據

    培訓方法
  • 評估方法
  • >訪問Llama-3.1-Tulu-3-405b
  • >步驟1:通過huggingface
  • 加載模型
  • 步驟2:使用VLLM
  • 執行
      步驟3:利用聊天模板
    • >性能和比較
    • tülu3的主要貢獻
  • 結論
  • 常見問題
  • 什麼是tülu3?
>通過艾倫AI研究所與華盛頓大學Tülu3之間的合作開發,可確保有關培訓後數據集,方法和評估框架的完全透明度。 Tülu3建立在Llama 3.1基礎模型的基礎上,超過了其他指令調節的開放型模型的性能,甚至匹配了諸如GPT-4O-Mini和Claude 3.5-Haiku之類的封閉模型。 它旨在完善跨各種技能領域的開源語言模型,包括:

> 知識檢索(mmlu基準)

>推理(BigBenchhard,drop)

>數學功能(GSM8K,數學數據集)
  • >編碼能力(HumaneVal,CodealPaca)
  • >指令依從性(Ifeval,Alpacaeval 2)安全與合規性(Tülu3安全套件)>
  • >tülu3數據
  • >數據在培訓和精煉語言模型中至關重要。 Tülu3利用了一個多樣化的,精心策劃的數據集,將公開資源與合成生成的數據相結合。 來源包括:
    • >公共數據集(Flan V2,開放助理,無機器人,Wildchat)
    • 特定於技能的數據集(Numinamath,Sciriff,OpenMathInstruct)
    • >使用角色驅動的方法生成的合成數據集,用於以下數學,編碼和說明等技能
    • 違規與安全數據(Wildjailbreak,Coconot,Wildguardmix)
    一個關鍵步驟涉及提示淨化以防止測試集污染,採用8克匹配以確保評估數據不會與培訓數據重疊。

    訓練方法

    Tülu 3 405b: Advancing Open Language Model Post-Training>tülu3使用四個階段的訓練後管道:

    >
      數據策劃:
    1. >提示從各種數據集進行策劃,並用於特定技能,經過嚴格的淨化。 監督的微調(SFT):高質量的指令遵循數據訓練模型。數據混合實驗優化了跨任務的性能。
    2. >偏好微調(DPO):成對偏好數據微型模型。 policy數據將Tülu的3個輸出與其他模型進行了比較。
    3. > 通過可驗證的獎勵(RLVR)
    4. 增強學習:這種新穎的RL方法僅獎勵可驗證的正確答案,特別有益於數學和精確的指導。
    5. >
    6. 評估方法

    >tülu3介紹了Tülu3評估,這是一個標準化的透明評估框架:

    開發評估(指導模型改進)

    看不見的評估(測量過度擬合和概括)
      安全評估(評估合規性和魯棒性)
    • 基準包括MMLU,GSM8K,Bigbenchhard,Humaneval和Alpacaeval 2。所有評估和淨化工具都是開源的。
    • >訪問Llama-3.1-tulu-3-405b
    • >
    >tülu3是一個高級指導跟隨模型家族。 這是使用Llama-3.1-tulu-3-405b:>

    >

    步驟1:通過huggingface

    加載模型

    步驟2:使用VLLM

    執行 >

    步驟3:使用聊天模板
    from transformers import AutoModelForCausalLM
    tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3-405B")
    登入後複製

    >

    性能和比較
    vllm serve allenai/Llama-3.1-Tulu-3-405B --max_model_len=8192
    登入後複製

    <code>How are you doing?
    
    I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?</code>
    登入後複製
    tülu3在開放式模型中取得了最新的結果,優於美洲拉瑪3.1指令,Mistral和Qwen 2.5指令。 在70b型號上,它可以與Claude 3.5 Haiku和GPT-4O-Mini匹配。

    >tülu3的關鍵貢獻

    Tülu 3 405b: Advancing Open Language Model Post-Training>tülu3顯著提高了開放語言模型訓練後:>

    • >開源數據集,代碼和培訓食譜,以透明和可重複性。
    • 實施高級去污染策略。
    • 利用可擴展的偏好調諧方法。
    • >通過可驗證的獎勵(RLVR)介紹加強學習。 >
    • 提供強大的,可重複的評估框架。
    • >

    結論

    tülu3為開放權重模型設定了一個新的基準測試,表明開源模型可以與專有解決方案競爭。 它的開源自然促進了進一步的創新和研究。

    >常見問題

    Q1。什麼是tülu3?

    A.一個開源後培訓框架增強語言模型。

    Q2。 RLVR如何改善性能?

    Q3。我可以微調tülu3嗎?

    Q4。 Tülu3與GPT-4的相比。

    Q5。我在哪裡可以訪問tülu3?

    (注意:圖像URL保持不變。)

    >

以上是tülu3 405b:培訓後推進開放語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板