LLM的工作方式：加固学习，RLHF，DeepSeek R1，Openai O1，Alphago-人工智能-PHP中文网

>从自己的经验中学习

值函数

让我们深入研究其中的一些关键点。

首页

科技周边

人工智能

LLM的工作方式：加固学习，RLHF，DeepSeek R1，Openai O1，Alphago

DDD

Feb 28, 2025 am 10:37 AM

欢迎来到我LLM深水研究的第2部分。如果您还没有阅读第1部分，我强烈建议您先检查一下。

>之前，我们介绍了培训LLM的前两个主要阶段：

>监督微调（SFT） - 使用精选的示例来完善模型以使其有用。
>现在，我们正在进入下一个主要阶段：增强学习（RL）

>我从Andrej Karpathy广受欢迎的3.5小时YouTube中获得了参考。安德烈（Andrej）是Openai的创始成员，他的见解是黄金 - 您明白了。 >让我们走吗？

强化学习的目的是什么？

> 人类和LLMS的处理信息有所不同。对我们来说，直觉（例如基本算术）可能不是针对LLM的，它仅将文本视为令牌序列。相反，LLM可以在复杂主题上产生专家级的响应，因为它在培训过程中已经看到了足够的例子。

在认知方面的差异使得人类注释者提供“完美”标签的挑战，这些标签始终指导LLM朝着正确的答案。通过允许模型到

>从自己的经验中学习

。该模型不仅依靠明确的标签，而是探索不同的令牌序列，并收到最有用的输出。随着时间的流逝，它学会了更好地与人类的意图保持一致。 > rl 背后的直觉 llms是随机的 - 这意味着它们的响应不是固定的。即使有相同的提示，输出也会有所不同，因为它是从概率分布中采样的。 我们可以通过在并行中产生数千甚至数百万个可能的响应来利用这种随机性。将其视为探索不同路径的模型 - 有些好，有些坏。 我们的目标是鼓励它更频繁地采取更好的途径。为此，我们对导致更好结果的令牌序列进行训练。与监督的微调不同，人类专家提供标记的数据，强化学习允许模型

>向自己学习。

>该模型发现哪些响应最有效，在每个培训步骤之后，我们都会更新其参数。随着时间的流逝，这使得该模型在将来给出类似提示时更有可能产生高质量的答案。

但是，我们如何确定哪些响应是最好的？我们应该做多少RL？细节很棘手，正确的正确性并不小。

rl不是“新”，它可以超越人类的专业知识（Alphago，2016）>>

> RL力量的一个很好的例子是DeepMind的Alphago，这是第一个击败专业GO球员并后来超过人类级别的AI。在2016年自然论文（下图）中，当模型纯粹是通过SFT训练的模型（给出模型的模型以模仿）时，该模型能够达到人级的性能，但永远不要超越

。

上虚线代表了李·塞多尔（Lee Sedol）的表现 - 世界上最好的GO球员。

这是因为SFT是关于复制的，而不是创新 - 它不允许模型发现超出人类知识的新策略。但是，RL使Alphago能够对抗自己，完善其策略，并最终超过人类的专业知识

（蓝线）。

RL代表了AI中令人兴奋的边界 - 当我们在各种各样挑战性的问题上训练它以完善其思维策略时，模型可以探索超越人类想象的策略。

rl基础回顾 >让我们快速回顾一下典型RL设置的关键组件：

代理

LLM的工作方式：加固学习，RLHF，DeepSeek R1，Openai O1，Alphago

-

学习者或决策者。它观察到当前情况（

state

），选择一个动作，然后根据结果更新其行为（

）。环境 - 代理操作的外部系统。> state - 在给定步骤t
在每个时间戳，代理在环境中执行
，这将使环境状态更改为新的状态。代理人还将收到反馈，表明该动作的好坏。> 此反馈称为a奖励，并以数值形式表示。积极的奖励鼓励了这种行为，而负面的奖励不鼓励这种行为。

>通过使用来自不同状态和动作的反馈，代理逐渐学习了最佳策略，以最大程度地提高总奖励

。 策略策略是代理人的策略。如果代理商遵循一项良好的政策，它将始终如一地做出好的决定，从而在许多步骤中获得更高的奖励。 在数学术语中，它是确定给定状态的不同输出的概率的函数 -

（πθ（a | s））

值函数

考虑到长期的预期奖励，

对处于某种状态的好处的估计。对于LLM，奖励可能来自人类的反馈或奖励模型。

> Actor-Critic体系结构

这是一个流行的RL设置，结合了两个组件：

Actor - 学习和更新策略（πθ），确定在每个状态下要采取哪种操作。>
- 评估值函数（v（s））以向演员提供反馈，以反馈其所选的动作是否会导致良好的结果。 它的工作原理：

Actor

>根据其当前策略选择一个动作。

评论家评估结果（奖励下一个状态）并更新其价值估计值。>
将其全部放在llms 上
>该策略是挑选下一个令牌的策略，而价值函数估计了当前文本上下文的有益于最终产生高质量的响应。

> 为了强调RL的重要性，让我们探索DeepSeek-R1，这是一种推理模型，在保持开源的同时，可以实现顶级性能。本文介绍了两个模型：

deepSeek-r1-Zero和deepSeek-r1。

> DeepSeek-R1-Zero仅通过大规模RL进行训练，跳过监督的微调（SFT）。

DeepSeek-R1建立在其基础上，解决遇到的挑战。>

让我们深入研究其中的一些关键点。

1。 RL算法：小组相对策略优化（GRPO） >一个关键游戏更改RL算法是组相对策略优化（GRPO），这是广泛流行的近端策略优化（PPO）的变体。 GRPO于2024年2月在DeepSeekmath纸上引入。

>为什么要grpo aver ppo？

>对评论家模型的依赖。
PPO需要一个单独的评论家模型，有效地使记忆和计算增加一倍。
培训评论家对于细微或主观的任务可能是复杂的。
>高计算成本，因为RL管道需要大量资源来评估和优化响应。>
当您依靠绝对奖励时 - 这意味着有一个单一的标准或指标可以判断答案是“好”还是“坏” - 很难捕捉到跨不同推理领域的开放性，多样化任务的细微差别。

> GRPO如何解决这些挑战： > grpo通过使用>相对评估

的

- 在组中比较响应，而不是通过固定标准进行判断。。想象学生解决问题。他们不是分别对他们进行评分，而是比较答案，互相学习。随着时间的流逝，性能会趋向于更高质量。

grpo如何适应整个训练过程？

grpo修改了如何计算损失的方式，而保持其他训练步骤不变：

收集数据（查询响应）

> - 对于llms，查询就像问题
- 旧策略（模型的较旧快照）为每个查询生成了几个候选答案>>
- 对组中的每个响应进行评分（“奖励”）。 >计算GRPO损失
>传统上，您将计算损失 - 显示了模型预测与真实标签之间的偏差。但是，GRPO中的
在GRPO中，您可以衡量的是：>
a）或更糟糕的是？c）应用剪辑以防止极端更新。
这会产生标量损失。

Back propagation gradient descent
– Back propagation calculates how each parameter contributed to loss
– Gradient descent updates those parameters to reduce the loss

偶尔更新旧策略以匹配新的策略

。 2。思想链（cot）

传统的LLM培训遵循预训练→SFT→RL。但是，DeepSeek-r1-Zero跳过SFT，允许该模型直接探索COT推理。

就像人类通过一个棘手的问题思考一样，COT使模型能够将问题分解为中间步骤，从而提高复杂的推理能力。 Openai的O1型号还利用了这一点，如2024年9月的报告中所述：O1的性能通过更多的RL（火车时间计算）和更多的推理时间（测试时间计算）。 > DeepSeek-R1-Zero表现出反思性倾向，自主完善其推理。

本文中的一个关键图（下图）显示在训练期间的思维增加，导致更长的（更多令牌），更详细和更好的响应。

>没有明确的编程，它开始重新审视过去的推理步骤，从而提高准确性。这重点介绍了对RL培训的新兴推理。 该模型还具有“ AHA时刻”（下图） - RL如何导致意外和复杂的结果。。

注意：与DeepSeek-R1不同，OpenAI并未在O1中显示出完全确切的思想链，因为他们担心蒸馏风险 - 有人进来并试图模仿这些推理痕迹并通过模仿来恢复很多推理性能。相反，O1只是这些思想链的摘要。 LLM的工作方式：加固学习，RLHF，DeepSeek R1，Openai O1，Alphago