首页 > 科技周边 > 人工智能 > 培训大语言模型:从TRPO到GRPO

培训大语言模型:从TRPO到GRPO

王林
发布: 2025-02-26 04:41:08
原创
990 人浏览过

DeepSeek:深入研究LLMS的加强学习 DeepSeek最近的成功,以较低的成本取得了令人印象深刻的表现,突出了大语言模型(LLM)培训方法的重要性。本文重点介绍了增强学习(RL)方面,探索TRPO,PPO和更新的GRPO算法。 假设对机器学习,深度学习和LLM的基本熟悉,我们将最大程度地减少复杂数学以使其可访问。

>

> LLM培训的三个支柱

LLM培训通常涉及三个关键阶段:Training Large Language Models: From TRPO to GRPO

>

预训练:
    >该模型学会了使用大量数据集从先前的代币中以序列进行序列预测下一个令牌。
  1. 监督的微调(SFT):
  2. 强化学习(RLHF):在本阶段,本文的重点,进一步完善了通过直接反馈对更好的人类偏好的反应。
  3. 强化学习基础
强化学习涉及

代理

环境Training Large Language Models: From TRPO to GRPO的交互。代理存在于特定的

状态

中,采取>动作>过渡到新状态。每个动作都会从环境中产生A奖励,从而指导代理人的未来行动。 想想一个机器人在迷宫中浏览:其位置是国家,运动是行动,到达出口提供了积极的奖励。 LLMS中的rl:详细的外观

在LLM培训中,组件是:

  • 代理: llm本身。>
  • >
  • >环境:外部因素,例如用户提示,反馈系统和上下文信息。
  • 动作:令牌llm对查询的响应生成。
  • state:当前查询和生成的令牌(部分响应)。
  • 奖励:
  • >通常由对人类通知数据训练的单独奖励模型确定,对分配得分的响应进行排名。更高质量的回应获得了更高的奖励。 在特定情况下,例如DeepSeekmath。
  • 策略
确定要采取的行动。 对于LLM,这是对可能令牌的概率分布,用于采样接下来的令牌。 RL培训可以调整策略的参数(型号权重),以偏爱更高的代币。 该策略通常表示为:

RL的核心是找到最佳策略。 与监督的学习不同,我们使用奖励来指导政策调整。

Training Large Language Models: From TRPO to GRPO> trpo(信任区域策略优化)

trpo使用优势函数,类似于监督学习中的损失函数,但从奖励中得出:

Training Large Language Models: From TRPO to GRPO

Training Large Language Models: From TRPO to GRPO

> ppo(近端策略优化)

现在,对于Chatgpt和Gemini等LLM而言,PPO

PPO,通过使用剪裁的替代目标来简化TRPO,隐含地限制了策略更新并提高了计算效率。 PPO目标函数是:Training Large Language Models: From TRPO to GRPO

grpo(组相对策略优化)

Training Large Language Models: From TRPO to GRPO

通过消除单独的值模型来简化

grpo的训练。对于每个查询,它都会生成一组响应,并根据其奖励计算优势作为z评分:

Training Large Language Models: From TRPO to GRPO

>这简化了过程,非常适合LLMS生成多个响应的能力。 GRPO还包含了KL Divergence术语,将当前策略与参考策略进行了比较。最终的GRPO公式是:

Training Large Language Models: From TRPO to GRPO

结论

增强学习,尤其是PPO和较新的GRPO,对于现代LLM培训至关重要。 每种方法都基于RL基本面,提供不同的方法,以平衡稳定性,效率和人类对齐方式。 DeepSeek的成功利用了这些进步以及其他创新。 强化学习有望在促进LLM功能方面发挥越来越重要的作用。

>参考:(参考文献保持不变,只是重新格式化以获得更好的可读性)

  • [1]“大语言模型的基础”,2025。[2]“加固学习”。 enaris。可在以下位置获得: https://www.php.cn/link/20E169B48C8F86987E2BBE1C5C3EA65
  • > [3] Y. Gokhale。 “ LLMS和生成AI第5部分:RLHF的简介,”
  • ,2023。
  • [4] L. Weng。 “强化学习概述”,2018年。网址:[5]“ deepSeek-r1:通过加固学习激励LLM中的推理能力”,2025。 https://www.php.cn/link/link/d0ae1e3078888807c855d78d78d78d64f4d64f4d64f4dd64f4ded55cd5cd5cd5cd5cd5cd5cd5cb [6]“ deepSeekmath:开放语言模型中的数学推理的限制”,2025。 https://www.php.cn/link/link/link/f8b18593cdbb1ce289330330560a4444e33aaaa
  • [7]“信任区域策略优化”,2017年。

以上是培训大语言模型:从TRPO到GRPO的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板