Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对-人工智能-PHP中文网

首页

科技周边

人工智能

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

王林

Aug 09, 2024 pm 04:40 PM

rlhf 理论 karpathy

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。AI 大牛 Karpathy 又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

Karpathy 的全文解释如下：
RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不然。
让我们看看 AlphaGo 的例子，它是使用真正的 RL 训练的。计算机玩围棋（Go）游戏，并在实现奖励函数最大化的回合（赢得比赛）中训练，最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练，如果它用了，效果就不会那么好。
用 RLHF 训练 AlphaGo 会是什么样子呢？首先，你要给人类标注员两个围棋棋盘的状态，然后问他们更喜欢哪一种：

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

然后你会收集到 10 万个类似的比较，并训练一个「奖励模型」（RM）神经网络来模拟人类对棋盘状态的氛围检查（vibe check）。你要训练它同意人类判断的平均水平。一旦我们有了奖励模型氛围检查，你就可以针对此运行 RL，学习如何下出带来良好氛围的棋步。显然，这不会在围棋中产生任何太有趣的结果。
这主要有以下两个根本的、独立的原因：
1) 氛围可能会产生误导，这不是实际奖励（赢得比赛）。这是一个糟糕的智能体目标。更糟糕的是，2) 你会发现你的 RL 优化偏离了轨道，因为它很快发现棋盘状态与奖励模型相反。请记住，奖励模型是一个庞大的神经网络，使用数十亿参数来模拟氛围。有些棋盘状态超出了自身训练数据的分布范围，实际上并不是良好状态，但却从奖励模型中获得了非常高的奖励。
出于同样的原因，我有时感到惊讶的一点是 RLHF 工作竟然适用于 LLM。我们为 LLM 训练的奖励模型只是以完全相同的方式进行氛围检查，它会对人类评分者在统计学上看起来喜欢的助手响应给出高分。这不是正确解决问题的实际目标，而是人类认为好的智能体目标。
其次，你甚至无法长时间地运行 RLHF，因为你的模型很快学会以游戏奖励模型的方式来做出响应。这些预测看起来真的非常奇怪，你会看到你的 LLM 助手开始对很多 prompt 做出无意义的响应，比如「The the the the the the」。这在你看来是荒谬的，但随后你查看奖励模型氛围检查，却发现出于某种原因，奖励模型会认为这些看起来很棒。
你的 LLM 发现了一个对抗性示例，它超出了奖励模型训练数据的范围，处于未定义的范围。你可以通过反复讲这些特定示例添加到训练集来缓解这一情况，但下次仍会找到其他对抗性示例。你甚至无法运行 RLHF 进行很多优化步骤。你执行了几百或几千步之后必须调用它，因为你的优化将开始与奖励模型博弈。这并不是 AlphaGo 那样的 RL。
不过，RLHF 是构建 LLM 助手的一个非常有用的步骤。我认为这有几个微妙的原因，其中我最喜欢的一点是通过 RLHF，LLM 助手会从生成器 - 判别器的 gap 中受益。也就是说，对于很多问题类型，人类标注员从几个候选答案中选出最佳答案要比从头写出理想答案容易得多。一个很好的例子是像「生成一首回形针诗」这样的 prompt。一个普通的人类标注员很难从头写出一首好诗来作为监督微调示例，但可以在给定几个候选答案（诗）的情况下选出一首较好的。因此 RLHF 是一种从人类监督的「容易度」差距中获益的方式。
还有一些其他原因，比如 RLHF 有助于缓解幻觉。如果奖励模型是一个足够强大的模型，能够在训练期间发现 LLM 编造的东西，则可以学会用低奖励来惩罚这种行为，教会模型在不确定时避免冒险获取事实性知识。但令人满意的幻觉缓解和处理是另外的事情，这里不做延伸。总之，RLHF 确实有用，但它不是 RL。
到目前为止，还没有一个针对 LLM 的生产级 RL 在开放域得到令人信服的实现和大规模展示。直观地说，这是因为在开放式问题解决任务中获得实际奖励（即赢得比赛）非常困难。在围棋这类封闭、类博弈的环境中，一切都很有趣。其中动态受到限制，奖励函数评估成本很低，不可能进行博弈。
但是，你如何为总结一篇文章提供客观的奖励？或者回答关于某个 pip 安装的模棱两可的问题？或者讲个笑话？或者将一些 Java 代码重写为 Python？实现这些在原则上并非不可能，但也非易事，需要一些创造性思维。无论谁能令人信服地解决这个问题，都将能够运行真正的 RL，使得 AlphaGo 在围棋中击败了人类。有了 RL，LLM 在解决开放域问题中才有可能真正击败人类。
Karpathy 的观点得到一些人的附议，并指出 RLHF 与 RL 的更多差异。比如 RLHF 没有进行适当的搜索，主要学习利用预训练轨迹的子集。相比之下，在进行适当的 RL 时，离散动作分布通常会通过在损失函数中添加熵项来增噪。Kaypathy 认为，原则上你可以轻松地为 RLHF 目标添加熵奖励，这在 RL 中也经常这样做。但实际上似乎并不多见。

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

谷歌研究科学家 Kevin Patrick Murphy 也完全同意 Karpathy 的观点。

他认为 RLHF 更像是一个具有字符串值操作的上下文「强盗」，其中 prompt 是上下文，所以不能称为完整的 RL。
此外将日常任务的奖励形式化是困难的部分（他认为或许可以叫做对齐）。
不过，另一位谷歌高级研究科学家 Natasha Jaques 认为 Karpathy 的观点是错误的。她认为智能体在与人互动时，给出人类喜欢的答案才是真正的目标。

超出分布范围并不是 RLHF 独有的问题。如果仅仅因为人类反馈比运行无限的围棋模拟更受限，并不意味着这不是一个不值得解决的问题，只会让它成为一个更具挑战性的问题。她希望这成为一个更有影响力的问题，毕竟在 LLM 中减少偏见比在围棋中击败人类更有意义。使用贬义的话术，比如 Karpathy 说奖励模型是一种氛围检查，这是愚蠢的。你可以用同样的论点来反对价值估计。

她觉得 Karpathy 的观点只会阻止人们从事 RLHF 工作，而它是目前唯一可行的减轻 LLM 偏见和幻觉可能造成严重伤害的方法。

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

图源：https://x.com/natashajaques/status/1821631137590259979

Meta 研究员 Pierluca D'Oro 不同意 Karpathy 的主要观点，但同意「RLHF is just barely RL」这一标题。他认为通常用于微调 LLM 的 RLHF 几乎不能算是 RL。

主要观点如下：

在强化学习中，追求一个「完美的奖励」概念是不现实的，因为大多数复杂任务中，除了目标的重要性，执行方式同样重要。
尽管在围棋等明确规则的任务中，RL 表现出色。但在涉及复杂行为时，传统 RL 的奖励机制可能无法满足需求。
他主张研究如何在不完美的奖励模型下提高 RL 的性能，并强调了反馈循环、鲁棒 RL 机制以及人机协作的重要性。
图源：https://x.com/proceduralia/status/1821560990091128943你赞同谁的观点呢？欢迎在评论区留言。

以上是Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1672

CakePHP 教程

1428

Laravel 教程

1332

PHP教程

1277

C# 教程

1256

显示更多

Related knowledge

$突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。$ 突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“DefectSpectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“DefectSpectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是，相比于以GPT-4-Turbo为代表的专有大模型，开放模型在很多领域依然还有明显差距。在通用模型之外，也有一些专精关键领域的开放模型已被开发出来，比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练，解决晶体学相位问题，深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日，晶体学所测定的结构细节和精度，从简单的金属到大型膜蛋白，是任何其他方法都无法比拟的。然而，最大的挑战——所谓的相位问题，仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员，开发了一种解决晶体相问题的深度学习方法PhAI，利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络，可以生成准确的电子密度图。研究表明，这种基于深度学习的从头算结构解决方案方法，可以以仅2埃的分辨率解决相位问题，该分辨率仅相当于原子分辨率可用数据的10%到20%，而传统的从头算方

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说，奥数不再是问题了。本周四，谷歌DeepMind的人工智能完成了一项壮举：用AI做出了今年国际数学奥林匹克竞赛IMO的真题，并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题，涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道，获得28分，达到了银牌水平。本月初，UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛（AIMO进步奖），没想到7月还没过，AI的做题水平就进步到了这种水平。IMO上同步做题，做对了最难题IMO是历史最悠久、规模最大、最负

PRO | 为什么基于 MoE 的大模型更值得关注？ Aug 07, 2024 pm 07:08 PM

2023年，几乎AI的每个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下，Transformer作为AI大模型主流架构的局面是否会撼动？为何探索基于MoE（专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...我们从过去的半年发布的2023年本站PRO会员通讯中，挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choicequestions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊 Aug 06, 2024 pm 07:34 PM

编辑|KX逆合成是药物发现和有机合成中的一项关键任务，AI越来越多地用于加快这一过程。现有AI方法性能不尽人意，多样性有限。在实践中，化学反应通常会引起局部分子变化，反应物和产物之间存在很大重叠。受此启发，浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务，迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro，该模型可以实现高质量和多样化的预测。大量实验表明，模型在标准基准数据集USPTO-50 K上取得了出色的性能，top-1准确率达到60.8%。

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？ Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停，这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据，与同事们建立了一系列AI模型，用于提供潜在诊断和推荐测试。一项研究表明，这些模型可以加快22.3%的就诊速度，将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而，人工智能算法在研究中的成功只是验证此

See all articles

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题