首页 > 科技周边 > 人工智能 > 如何训练LLM'思考”(O1&DeepSeek-R1)

如何训练LLM'思考”(O1&DeepSeek-R1)

Patricia Arquette
发布: 2025-03-04 10:37:11
原创
286 人浏览过

OpenAI的O1型号于2024年9月发布,通过大规模的增强学习展示了“高级推理”功能。 AI研究实验室DeepSeek已成功复制了这种行为,并公开发表了他们的方法。本文探讨了这一突破的核心概念和基本机制。

>

>How to Train LLMs to “Think” (o1 & DeepSeek-R1)OpenAI的O1模型通过引入“思考”代币彻底改变了大型语言模型(LLM)培训。这些特殊的令牌充当了刮擦板,允许模型系统地处理问题和用户查询。 一个关键发现是通过增加测试时间计算的性能提高 - 产生的代币等同于更好的响应。 以下图(来自Openai的博客)说明了以下内容:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)左图显示了既定的神经缩放法则,其中较长的训练(火车时间计算)可改善性能。正确的图揭示了一种新颖的缩放定律:推理期间的令牌产生增加(测试时间计算)可以增强性能。

思考令牌 O1的“思考”代币划分了模型的思想链(COT)推理。 它们的重要性是双重的:他们清楚地描绘了UI开发的推理过程,并提供了模型思维过程的可读记录。虽然Openai将培训细节保密,但DeepSeek的研究阐明了这一点。

> DeepSeek的研究

DeepSeek的2025年1月的出版物:“ DeepSeek-R1:通过增强学习激励LLMS中的推理能力

” [2],揭示了O1模型的秘密。他们引入了DeepSeek-R1-Zero(仅在增强学习方面接受培训)和DeepSeek-R1(由监督微调(SFT)和RL的混合物)。 R1-Zero至关重要,因为它为R1生成了培训数据,并证明未明确编程的紧急推理能力。 R1-Zero

发现COT和测试时间计算单独通过RL缩放。 > deepSeek-r1-Zero(仅Rl)增强学习(RL)允许模型通过反复试验学习,接收奖励信号,而无需明确的功能关系与模型参数。 R1-Zero培训的三个关键方面被突出显示:

提示模板:

一个简单的模板使用

>和
    标签来构建模型的响应:
  1. > <think></think>最小的提示避免了偏见的反应,并允许在RL期间自然演变。<answer></answer>
    1. > 奖励信号:基于规则的系统评估准确性和格式,避免了可能与神经奖励模型相关的潜在“奖励黑客入侵”问题。

    2. grpo(小组相对策略优化):>此RL方法汇总了更新模型参数的响应,并结合了剪接和KL-Divergence正则化以进行稳定培训。 损失函数如下所示:

    How to Train LLMs to “Think” (o1 & DeepSeek-R1)

    r1-Zero结果(紧急能力)

    > >非常明显的是,R1-Zero隐式学会通过测试时间计算来改善响应,并表现出类似人类的内部独白,通常包括验证步骤。 原始文章中提供了一个示例。

    > deepSeek-r1(sft rl)

    > DeepSeek-R1通过组合SFT和RL的四步训练过程解决R1-Zero的可读性问题

    带有推理数据的SFT

      SFT:初始SFT使用数千个长的COT示例来建立一个推理框架。
    1. > r1-Zero样式RL(语言一致性奖励): rl培训类似于R1-Zero,但具有额外的语言一致性奖励。
    2. 与混合数据的

      sft: sft具有推理和非争议数据,以扩大模型的功能。

    3. rl rlHf:最终的RL培训包括推理培训和RLHF,以提高帮助和无害性。

      >
    4. >访问R1-Zero和R1

      > DeepSeek
    5. 使模型权重公开可用,可以通过各种推理提供者和本地部署(DeepSeek,grode,双曲线,荷拉马,ollama,unging face)访问。

    结论

    O1

    O1引入了测试时间计算,作为LLM改进的新维度。 DeepSeek的复制和公开出版物表明,强化学习可以独立地产生超过现有人类知识限制的模型。这为未来的科学和技术进步打开了令人兴奋的可能性。

    [注意:链接到外部资源,因为它们与释义内容无关,并且可以被视为促销。

以上是如何训练LLM'思考”(O1&DeepSeek-R1)的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板