首頁 > 科技週邊 > 人工智慧 > 如何訓練LLM'思考”(O1&DeepSeek-R1)

如何訓練LLM'思考”(O1&DeepSeek-R1)

Patricia Arquette
發布: 2025-03-04 10:37:11
原創
286 人瀏覽過

OpenAI的O1型號於2024年9月發布,通過大規模的增強學習展示了“高級推理”功能。 AI研究實驗室DeepSeek已成功複製了這種行為,並公開發表了他們的方法。本文探討了這一突破的核心概念和基本機制。

>

>How to Train LLMs to “Think” (o1 & DeepSeek-R1)OpenAI的O1模型通過引入“思考”代幣徹底改變了大型語言模型(LLM)培訓。這些特殊的令牌充當了刮擦板,允許模型系統地處理問題和用戶查詢。 一個關鍵發現是通過增加測試時間計算的性能提高 - 產生的代幣等同於更好的響應。 以下圖(來自Openai的博客)說明了以下內容:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)左圖顯示了既定的神經縮放法則,其中較長的訓練(火車時間計算)可改善性能。正確的圖揭示了一種新穎的縮放定律:推理期間的令牌產生增加(測試時間計算)可以增強性能。

思考令牌 O1的“思考”代幣劃分了模型的思想鏈(COT)推理。 它們的重要性是雙重的:他們清楚地描繪了UI開發的推理過程,並提供了模型思維過程的可讀記錄。雖然Openai將培訓細節保密,但DeepSeek的研究闡明了這一點。

> DeepSeek的研究

DeepSeek的2025年1月的出版物:“ DeepSeek-R1:通過增強學習激勵LLMS中的推理能力

” [2],揭示了O1模型的秘密。他們引入了DeepSeek-R1-Zero(僅在增強學習方面接受培訓)和DeepSeek-R1(由監督微調(SFT)和RL的混合物)。 R1-Zero至關重要,因為它為R1生成了培訓數據,並證明未明確編程的緊急推理能力。 R1-Zero

發現COT和測試時間計算單獨通過RL縮放。 > deepSeek-r1-Zero(僅Rl)增強學習(RL)允許模型通過反複試驗學習,接收獎勵信號,而無需明確的功能關係與模型參數。 R1-Zero培訓的三個關鍵方面被突出顯示:

提示模板:

一個簡單的模板使用

>和
    標籤來構建模型的響應:
  1. > <think></think>最小的提示避免了偏見的反應,並允許在RL期間自然演變。 <answer></answer>
    1. > 獎勵信號:基於規則的系統評估準確性和格式,避免了可能與神經獎勵模型相關的潛在“獎勵黑客入侵”問題。

    2. grpo(小組相對策略優化):>此RL方法彙總了更新模型參數的響應,並結合了剪接和KL-Divergence正則化以進行穩定培訓。 損失函數如下所示:

    How to Train LLMs to “Think” (o1 & DeepSeek-R1)

    r1-Zero結果(緊急能力)

    > >非常明顯的是,R1-Zero隱式學會通過測試時間計算來改善響應,並表現出類似人類的內部獨白,通常包括驗證步驟。 原始文章中提供了一個示例。

    > deepSeek-r1(sft rl)

    > DeepSeek-R1通過組合SFT和RL的四步訓練過程解決R1-Zero的可讀性問題

    帶有推理數據的SFT

      SFT:初始SFT使用數千個長的COT示例來建立一個推理框架。
    1. > r1-Zero樣式RL(語言一致性獎勵): rl培訓類似於R1-Zero,但具有額外的語言一致性獎勵。
    2. 與混合數據的

      sft: sft具有推理和非爭議數據,以擴大模型的功能。

    3. rl rlHf:最終的RL培訓包括推理培訓和RLHF,以提高幫助和無害性。

      >
    4. >訪問R1-Zero和R1

      > DeepSeek
    5. 使模型權重公開可用,可以通過各種推理提供者和本地部署(DeepSeek,grode,雙曲線,荷拉馬,ollama,unging face)訪問。

    結論

    O1

    O1引入了測試時間計算,作為LLM改進的新維度。 DeepSeek的複制和公開出版物表明,強化學習可以獨立地產生超過現有人類知識限制的模型。這為未來的科學和技術進步打開了令人興奮的可能性。

    [注意:鏈接到外部資源,因為它們與釋義內容無關,並且可以被視為促銷。

以上是如何訓練LLM'思考”(O1&DeepSeek-R1)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板