像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍-人工智能-PHP中文网

大模型的对齐

对比式非似然训练

实验评估

总结与挑战

首页

科技周边

人工智能

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

PHPz

Feb 04, 2024 am 09:20 AM

数据模型

现有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。

那么，大语言模型能否也像人类一样利用语言反馈来改善自身呢？

香港中文大学和腾讯AI Lab的研究者们最近提出了一项名为对比式非似然训练（Contrastive Unlikelihood Learning，CUT）的创新研究。该研究利用语言反馈来调整语言模型，使其能够像人类一样从不同的批评意见中学习和进步。这项研究旨在提高语言模型的质量和准确性，使其更符合人类思维方式。通过对比非似然训练，研究者们希望能够让语言模型更好地理解和适应多样化的语言使用情境，从而提高其在自然语言处理任务中的性能。这一创新研究有望为语言模型

CUT是一种简单而有效的方法。仅通过使用1317条语言反馈数据，CUT能够大幅提升LLaMA2-13b在AlpacaEval上的胜率，从1.87%飙升至62.56%，并成功击败了175B的DaVinci003。令人兴奋的是，CUT还能像其他强化学习与强化学习强化反馈（RLHF）框架一样进行探索、批评和改进的循环迭代。在这一过程中，批评阶段可以由自动评价模型完成，实现整个系统的自我评估和提升。

作者对 LLaMA2-chat-13b 进行了四轮迭代，将模型在 AlpacaEval 上的性能从 81.09% 逐步提升至 91.36%。相较于基于分数反馈的对齐技术（DPO），CUT 在同等数据规模下表现更佳。研究结果揭示了语言反馈在对齐领域具有巨大的发展潜力，为未来的对齐研究开辟了新的可能性。这一发现对于提高对齐技术的精确性和效率具有重要意义，并为实现更好的自然语言处理任务提供了指导。

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

论文标题：Reasons to Reject? Aligning Language Models with Judgments
论文链接：https://arxiv.org/abs/2312.14591
Github 链接：https://github.com/wwxu21/CUT

大模型的对齐

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

根据现有工作，研究人员总结了两种常见的大模型对齐方式：

1. 从示例中学习 (Learning from Demonstration)：基于现成的指令 - 回复对，利用监督式训练的方法来对齐大模型。

优点：训练稳定；实现简单。
缺点：收集高质量、多样化的示例数据成本高；无法从错误回复中学习；示例数据往往和模型无关。

2. 从分数反馈中学习 (Learning from Rewards)：给指令 - 回复对打分，利用强化学习训练模型最大化其回复的得分。

优点：能同时利用正确回复和错误回复；反馈信号与模型相关。
缺点：反馈信号稀疏；训练过程往往比较复杂。

此研究关注的则是从语言反馈中学习 (Learning from Judgments)：给指令 - 回复对写评语，基于该语言反馈改进模型存在的瑕疵，保持模型的优点，从而提升模型性能。

可以看出，语言反馈继承了分数反馈的优点。与分数反馈相比，语言反馈的信息量更大：与其让模型去猜哪里做对了和哪里做错了，语言反馈可以直接指出详细的不足之处和改进方向。然而，令人遗憾的是，研究者们发现目前尚无有效方法能充分利用语言反馈。为此，研究者们提出了一种创新性的框架 CUT，旨在充分发挥语言反馈的优势。

对比式非似然训练

CUT 的核心思想是从对比中学习。研究者们通过对比大模型在不同条件下的回复去启发哪些部分是令人满意的，应该保持，哪些部分是有瑕疵，需要修改。基于此，研究者们利用最大似然估计（MLE）来训练令人满意的部分，利用非似然训练（UT）来修改回复中的瑕疵。

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

1. 对齐场景：如上图所示，研究者们考虑了两种对齐场景：

a) 像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍：这是通常理解的对齐场景，在该场景下，回复需要忠实地遵循指示并符合人类的期望和价值观。

b) 像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍：该场景引入了语言反馈作为额外的条件。在该场景下，回复要同时满足指令和语言反馈。例如，当收到一个消极反馈，大模型需要根据对应的反馈中提到的问题去犯错。

2. 对齐数据：如上图所示，基于上述两者对齐场景，研究者们构造了三类对齐数据：

a) Align-P：大模型生成了令人满意的回复，因此获得了积极的反馈。显然，Align-P 在像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍和场景下都是满足对齐的。

b) Align-N：大模型生成了有瑕疵（蓝色加粗）的回复，因此获得了消极的反馈。对于 Align-N，中是不满足对齐。但考虑该消极反馈后，Align-N 在像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍场景下仍是对齐的。

c) Misalign：Align-N 中真实的消极反馈被替换为一条伪造的积极反馈。显然，Misalign 在和像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍场景下都不满足对齐。

3. 从对比中学习：

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

a) Align-N v.s. Misalign：两者的区别主要在于像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍下的对齐程度。鉴于大模型强大的上下文内学习能力（in-context learning），从 Align-N 到 Misalign 的对齐极性翻转通常伴随着特定词的生成概率的显著变化，尤其是那些与真实消极反馈密切相关的词。如上图所示，在 Align-N（左通路）的条件下，大模型生成 “a” 的概率明显高于 Misalign（右通路）。而这概率显著变化的地方刚好是大模型犯错的地方。

为了从该对比中学习，研究者们将 Align-N 和 Misalign 数据同时输入给大模型，以获取输出词分别在两种条件下的生成概率像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍和。那些在条件下有着明显高于条件下的生成概率的词被标记为不合适的词。具体而言，研究者们采用如下标准来量化不合适词的界定：

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

其中像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍是权衡不合适词识别过程中精度和召回的超参数。

研究者们对这些识别出来的不合适词采用非似然训练（UT），从而迫使大模型去探索更加令人满意的回复。对于其他回复词，研究者们仍采用最大似然估计（MLE）来优化：

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

其中像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍是控制非似然训练的比重的超参数，是回复词数。

b) Align-P v.s. Align-N：两者的区别主要在于像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍下的对齐程度。本质上，大模型通过引入不同极性的语言反馈来控制输出回复的质量。因此该二者的对比能启发大模型去区分令人满意的回复和有瑕疵的回复。具体而言，研究者们通过以下最大似然估计（MLE）损失来从该组对比中学习：

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

其中像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍是指示函数，如果数据满足对齐返回 1，否则返回 0。

CUT 最终的训练目标结合了上述两组对比：像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍。

实验评估

1. 离线对齐

为了省钱，研究者们首先尝试了利用现成的语言反馈数据来对齐大模型。该实验用以证明 CUT 在利用语言反馈的能力。

a) 通用模型

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

如上表所示，在通用模型对齐上，研究者们使用 Shepherd 提供的 1317 条对齐数据，分别在冷启动（LLaMA2）和热启动（LLaMA2-chat）的条件下比较了 CUT 与现有从语言反馈学习的方法。

在基于 LLaMA2 的冷启动实验下，CUT 在 AlpacaEval 测试平台上大幅超越现有对齐方法，充分证明了其在利用语言反馈方面的优势。并且 CUT 在 TruthfulQA 上相比于基座模型也取得了大幅提升，这揭示了 CUT 在缓解大模型幻觉（hallucination）问题上有巨大潜力。

在基于 LLaMA2-chat 的热启动场景中，现有方法在提升 LLaMA2-chat 方面表现不佳，甚至产生了负面影响。然而，CUT 却能在此基础上进一步提升基座模型的性能，再次验证了 CUT 在利用语言反馈方面的巨大潜力。

b) 专家模型

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

研究者们同时测试了在特定专家任务（文本摘要）上 CUT 的对齐效果。如上表所示，CUT 在专家任务上相比现有对齐方法也取得了明显的提升。

2. 在线对齐

离线对齐的研究已经成功证明了 CUT 的强大对齐性能。现在，研究者们进一步地探索了更贴近实际应用的在线对齐场景。在这个场景中，研究者们迭代地对目标大模型的回复进行语言反馈标注，使该目标模型能够根据与其相关的语言反馈进行更精确的对齐。具体流程如下：

步骤 1：收集指令，并获得目标大模型的回复。
步骤 2：针对上述指令 - 回复对，标注语言反馈。
步骤 3：采用 CUT，基于收集到的三元组数据微调目标大模型。

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

如上图所示，经过四轮在线对齐迭代后，CUT 在仅有 4000 条训练数据和较小的 13B 模型规模的条件下，仍然能够取得令人瞩目的 91.36 分数。这一成绩进一步展示了 CUT 卓越的性能和巨大的潜力。

3. AI 评语模型

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

考虑到语言反馈的标注成本，研究者尝试训练评语模型（Judgement Model）来自动地为目标大模型标注语言反馈。如上图所示，研究者们分别使用 5000 条（AI Judge-5000）和 3000 条（AI Judge-3000）语言反馈数据来训练了两个评语模型。这两个评语模型在优化目标大型模型方面都取得了显著成果，尤其是 AI Judge-5000 的效果更为突出。

这证明了利用 AI 评语模型对齐目标大模型的可行性，同时也突显了评语模型质量在整个对齐过程中的重要性。这组实验还为未来降低标注成本提供了有力支持。

4. 语言反馈 vs. 分数反馈

为了深入挖掘语言反馈在大型模型对齐中的巨大潜力，研究者们将基于语言反馈的 CUT 与基于分数反馈的方法（DPO）进行了对比。为了确保比较的公平性，研究者们选取了 4000 组相同的指令 - 回复对作为实验样本，让 CUT 和 DPO 分别从这些数据所对应的分数反馈和语言反馈中进行学习。

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

如上表所示，在冷启动（LLaMA2）实验中，CUT 的表现明显优于 DPO。而在热启动（LLaMA2-chat）实验中，CUT 在 ARC、HellaSwag、MMLU 和 TruthfulQA 等任务上能取得与 DPO 相媲美的成绩，并在 AlpacaEval 任务上大幅度领先 DPO。这一实验证实了在大型模型对齐过程中，相较于分数反馈，语言反馈具有更大的潜力和优势。

总结与挑战

该工作中，研究者们系统地探讨了语言反馈在大模型对齐中的现状并创新性地提出了一种基于语言反馈的对齐框架 CUT，揭示了语言反馈在大型模型对齐领域所具有的巨大潜力和优势。此外，语言反馈的研究还有着一些新的方向和挑战，例如：

1. 评语模型的质量：尽管研究人员已成功地证实了训练评语模型的可行性，但在观察模型输出时，他们仍然发现评语模型经常给出不够准确的评价。因此，提升评语模型的质量对于未来大规模利用语言反馈进行对齐具有举足轻重的意义。

2. 新知识的引入：当语言反馈涉及到大模型所缺乏的知识时，大模型即使能准确地识别出错误的地方，但也没有明确的修改方向。因此在对齐的同时补足大模型缺乏的知识非常重要。

3. 多模态对齐：语言模型的成功促进了多模态大模型的研究，如语言、语音、图像和视频的结合。在这些多模态场景下，研究语言反馈以及对应模态的反馈迎来了新的定义和挑战。

以上是像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7491

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！ Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高，可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

iPhone上的蜂窝数据互联网速度慢：修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后，缓慢的移动数据连接？通常，手机上蜂窝互联网的强度取决于几个因素，例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时，强制重启设备只会重置许多内容，包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来，按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度，但在信号较弱

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下，两侧都能生成高质量、多模态的新数据，对模型本身进行数据反哺。模型是啥？中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁？智子引擎。由人大高瓴人工智能学院博士生高一钊创立，高

美国空军高调展示首个AI战斗机！部长亲自试驾全程未干预，10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近，军事圈被这个消息刷屏了：美军的战斗机，已经能由AI完成全自动空战了。是的，就在最近，美军的AI战斗机首次公开，揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机（VISTA），由美空军部长亲自搭乘，模拟了一对一的空战。5月2日，美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意，在一小时的飞行中，所有飞行动作都由AI自主完成！Kendall表示——在过去的几十年中，我们一直在思考自主空对空作战的无限潜力，但它始终显得遥不可及。然而如今，

See all articles

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

大模型的对齐

对比式非似然训练

实验评估

总结与挑战

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题