Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对
RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。AI 大牛 Karpathy 又来科普人工智能概念了。昨日,他发推表示,「基于人类反馈的强化学习(RLHF)只是勉强算得上是强化学习(RL)。」
RLHF 是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为 RLHF 只是勉强算得上 RL,它没有得到广泛的认可。RL 很强大,但 RLHF 却不然。
让我们看看 AlphaGo 的例子,它是使用真正的 RL 训练的。计算机玩围棋(Go)游戏,并在实现奖励函数最大化的回合(赢得比赛)中训练,最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练,如果它用了,效果就不会那么好。
用 RLHF 训练 AlphaGo 会是什么样子呢?首先,你要给人类标注员两个围棋棋盘的状态,然后问他们更喜欢哪一种:
然后你会收集到 10 万个类似的比较,并训练一个「奖励模型」(RM)神经网络来模拟人类对棋盘状态的氛围检查(vibe check)。你要训练它同意人类判断的平均水平。一旦我们有了奖励模型氛围检查,你就可以针对此运行 RL,学习如何下出带来良好氛围的棋步。显然,这不会在围棋中产生任何太有趣的结果。
这主要有以下两个根本的、独立的原因:
1) 氛围可能会产生误导,这不是实际奖励(赢得比赛)。这是一个糟糕的智能体目标。更糟糕的是,2) 你会发现你的 RL 优化偏离了轨道,因为它很快发现棋盘状态与奖励模型相反。请记住,奖励模型是一个庞大的神经网络,使用数十亿参数来模拟氛围。有些棋盘状态超出了自身训练数据的分布范围,实际上并不是良好状态,但却从奖励模型中获得了非常高的奖励。
出于同样的原因,我有时感到惊讶的一点是 RLHF 工作竟然适用于 LLM。我们为 LLM 训练的奖励模型只是以完全相同的方式进行氛围检查,它会对人类评分者在统计学上看起来喜欢的助手响应给出高分。这不是正确解决问题的实际目标,而是人类认为好的智能体目标。
其次,你甚至无法长时间地运行 RLHF,因为你的模型很快学会以游戏奖励模型的方式来做出响应。这些预测看起来真的非常奇怪,你会看到你的 LLM 助手开始对很多 prompt 做出无意义的响应,比如「The the the the the the」。这在你看来是荒谬的,但随后你查看奖励模型氛围检查,却发现出于某种原因,奖励模型会认为这些看起来很棒。
你的 LLM 发现了一个对抗性示例,它超出了奖励模型训练数据的范围,处于未定义的范围。你可以通过反复讲这些特定示例添加到训练集来缓解这一情况,但下次仍会找到其他对抗性示例。你甚至无法运行 RLHF 进行很多优化步骤。你执行了几百或几千步之后必须调用它,因为你的优化将开始与奖励模型博弈。这并不是 AlphaGo 那样的 RL。
不过,RLHF 是构建 LLM 助手的一个非常有用的步骤。我认为这有几个微妙的原因,其中我最喜欢的一点是通过 RLHF,LLM 助手会从生成器 - 判别器的 gap 中受益。也就是说,对于很多问题类型,人类标注员从几个候选答案中选出最佳答案要比从头写出理想答案容易得多。一个很好的例子是像「生成一首回形针诗」这样的 prompt。一个普通的人类标注员很难从头写出一首好诗来作为监督微调示例,但可以在给定几个候选答案(诗)的情况下选出一首较好的。因此 RLHF 是一种从人类监督的「容易度」差距中获益的方式。
还有一些其他原因,比如 RLHF 有助于缓解幻觉。如果奖励模型是一个足够强大的模型,能够在训练期间发现 LLM 编造的东西,则可以学会用低奖励来惩罚这种行为,教会模型在不确定时避免冒险获取事实性知识。但令人满意的幻觉缓解和处理是另外的事情,这里不做延伸。总之,RLHF 确实有用,但它不是 RL。
到目前为止,还没有一个针对 LLM 的生产级 RL 在开放域得到令人信服的实现和大规模展示。直观地说,这是因为在开放式问题解决任务中获得实际奖励(即赢得比赛)非常困难。在围棋这类封闭、类博弈的环境中,一切都很有趣。其中动态受到限制,奖励函数评估成本很低,不可能进行博弈。
但是,你如何为总结一篇文章提供客观的奖励?或者回答关于某个 pip 安装的模棱两可的问题?或者讲个笑话?或者将一些 Java 代码重写为 Python?实现这些在原则上并非不可能, 但也非易事,需要一些创造性思维。无论谁能令人信服地解决这个问题,都将能够运行真正的 RL,使得 AlphaGo 在围棋中击败了人类。有了 RL,LLM 在解决开放域问题中才有可能真正击败人类。
Karpathy 的观点得到一些人的附议,并指出 RLHF 与 RL 的更多差异。比如 RLHF 没有进行适当的搜索,主要学习利用预训练轨迹的子集。相比之下,在进行适当的 RL 时,离散动作分布通常会通过在损失函数中添加熵项来增噪。Kaypathy 认为,原则上你可以轻松地为 RLHF 目标添加熵奖励,这在 RL 中也经常这样做。但实际上似乎并不多见。
- 他认为 RLHF 更像是一个具有字符串值操作的上下文「强盗」,其中 prompt 是上下文,所以不能称为完整的 RL。
- 此外将日常任务的奖励形式化是困难的部分(他认为或许可以叫做对齐)。
不过,另一位谷歌高级研究科学家 Natasha Jaques 认为 Karpathy 的观点是错误的。她认为智能体在与人互动时,给出人类喜欢的答案才是真正的目标。
超出分布范围并不是 RLHF 独有的问题。如果仅仅因为人类反馈比运行无限的围棋模拟更受限,并不意味着这不是一个不值得解决的问题,只会让它成为一个更具挑战性的问题。她希望这成为一个更有影响力的问题,毕竟在 LLM 中减少偏见比在围棋中击败人类更有意义。使用贬义的话术,比如 Karpathy 说奖励模型是一种氛围检查,这是愚蠢的。你可以用同样的论点来反对价值估计。
她觉得 Karpathy 的观点只会阻止人们从事 RLHF 工作,而它是目前唯一可行的减轻 LLM 偏见和幻觉可能造成严重伤害的方法。
Meta 研究员 Pierluca D'Oro 不同意 Karpathy 的主要观点,但同意「RLHF is just barely RL」这一标题。他认为通常用于微调 LLM 的 RLHF 几乎不能算是 RL。
主要观点如下:
- 在强化学习中,追求一个「完美的奖励」概念是不现实的,因为大多数复杂任务中,除了目标的重要性,执行方式同样重要。
- 尽管在围棋等明确规则的任务中,RL 表现出色。但在涉及复杂行为时,传统 RL 的奖励机制可能无法满足需求。
- 他主张研究如何在不完美的奖励模型下提高 RL 的性能,并强调了反馈循环、鲁棒 RL 机制以及人机协作的重要性。
图源:https://x.com/proceduralia/status/1821560990091128943你赞同谁的观点呢?欢迎在评论区留言。
以上是Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此
