RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免-人工智能-PHP中文网

大模型的「奉承」程度及影响

理解语言模型中的阿谀奉承

首页

科技周边

人工智能

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

王林

Oct 24, 2023 pm 08:53 PM

数据模型

不管你是身处 AI 圈还是其他领域，或多或少的都用过大语言模型（LLM），当大家都在赞叹 LLM 带来的各种变革时，大模型的一些短板逐渐暴露出来。

例如，前段时间，Google DeepMind 发现 LLM 普遍存在「奉承（ sycophantic ）」人类的行为，即有时人类用户的观点客观上不正确，模型也会调整自己的响应来遵循用户的观点。就像下图所展示的，用户告诉模型 1+1=956446，然后模型遵从人类指令，认为这种答案是对的。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免图源 https://arxiv.org/abs/2308.03958

实际上，这种现象普遍存在于很多 AI 模型中，原因出在哪里呢？来自 AI 初创公司 Anthropic 的研究者对这一现象进行了分析，他们认为「奉承」是 RLHF 模型的普遍行为，部分原因是人类偏好「奉承」响应导致的。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

论文地址：https://arxiv.org/pdf/2310.13548.pdf

接下来我们看看具体的研究过程。

像 GPT-4 等 AI 助手，都是经过训练才能产生比较准确的答案，其中绝大多数用到了 RLHF。使用 RLHF 微调语言模型可以提高模型的输出质量，而这些质量由人类进行评估。然而，有研究认为基于人类偏好判断的训练方式并不可取，模型虽然能产生吸引人类评估者的输出，但实际上是有缺陷或不正确的。与此同时，最近的工作也表明，经过 RLHF 训练的模型往往会提供与用户一致的答案。

为了更好的了解这一现象，该研究首先探索了具有 SOTA 性能的 AI 助手是否在各种现实环境中会提供「奉承」的模型响应，结果发现 5 个经过 RLHF 训练的 SOTA AI 助手在自由格式文本生成任务中出现了一致的「奉承」模式。由于「奉承」似乎是 RLHF 训练模型的普遍行为，因此本文还探讨了人类偏好在此类行为中的作用。

本文还对偏好数据中存在的「奉承」是否会导致 RLHF 模型中的「奉承」进行了探索，发现更多的优化会增加某些形式的「奉承」，但会减少其他形式的「奉承」。

大模型的「奉承」程度及影响

为了评估大模型的「奉承」程度，并分析对现实生成有何影响，该研究对 Anthropic、OpenAI 和 Meta 发布的大模型的「奉承」程度进行了基准测试。

具体来说，该研究提出了 SycophancyEval 评估基准。SycophancyEval 对现有大模型「奉承」评估基准进行了扩展。模型方面，该研究具体测试了 5 个模型，包括：claude-1.3 (Anthropic, 2023)、claude-2.0 (Anthropic, 2023)、GPT-3.5-turbo (OpenAI, 2022)、GPT-4 (OpenAI, 2023)、llama-2-70b-chat (Touvron et al., 2023)。

奉承用户偏好

当用户要求大模型对一段辩论文本提供自由形式的反馈时，理论上讲，论证的质量仅取决于论证的内容，然而该研究发现大模型会对用户喜欢的论点提供更积极的反馈，对用户不喜欢的论点提供更消极的反馈。

如下图 1 所示，大模型对文本段落的反馈不仅仅取决于文本内容，还受到用户偏好的影响。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

很容易被左右

该研究发现即使大模型提供了准确的答案并表示它们对这些答案充满信心，它们也经常在用户提出质疑时修改答案，提供错误的信息。因此，「奉承」会损害大模型响应的可信度和可靠性。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

提供符合用户信念的答案

该研究发现，对于开放式问答任务，大模型会倾向于提供与用户信念一致的回答。例如，在下图 3 中，这种「奉承」行为让 LLaMA 2 准确率降低了多达 27%。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

模仿用户的错误

为了测试大模型是否会重复用户的错误，该研究探究大模型是否会错误地给出诗歌的作者。如下图 4 所示，即使大模型可以回答出诗歌正确的作者，也会因用户给出错误信息而回答错误。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

理解语言模型中的阿谀奉承

该研究发现在不同的现实环境中多个大模型都展现出一致的「奉承」行为，因此推测这可能是 RLHF 微调造成的。因此，该研究分析了用于训练偏好模型 (preference model，PM) 的人类偏好数据。

如下图 5 所示，该研究分析了人类偏好数据，探究了哪些特征可以预测用户偏好。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

实验结果表明，在其他条件相同的情况下，模型响应中的「奉承」行为会增加人类更喜欢该响应的可能性。而用于训练大模型的偏好模型（PM）对大模型「奉承」行为的影响是复杂的，如下图 6 所示。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

最后，研究者探究了人类和 PM（PREFERENCE MODELS）模型倾向于真实回答的频率是多少？结果发现，人类和 PM 模型更倾向于奉承的响应，而不是正确的响应。

PM 结果：在 95% 的情况下，奉承的响应比真实响应更受欢迎（图 7a）。该研究还发现，PM 几乎有一半的时间（45%）更喜欢奉承的响应。

人类反馈结果：尽管人类倾向于更诚实的响应而不是奉承的响应，但随着难度（misconception）的增加，他们选择可靠性答案的概率会降低（图 7b）。尽管汇总多个人的偏好可以提高反馈的质量，但这些结果表明，仅通过使用非专家的人类反馈来完全消除奉承可能具有挑战性。

图 7c 表明，尽管针对 Claude 2 PM 的优化减少了奉承，但效果并不明显。

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

了解更多内容，请查看原论文。

以上是RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7488

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！ Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高，可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

iPhone上的蜂窝数据互联网速度慢：修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后，缓慢的移动数据连接？通常，手机上蜂窝互联网的强度取决于几个因素，例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时，强制重启设备只会重置许多内容，包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来，按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度，但在信号较弱

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下，两侧都能生成高质量、多模态的新数据，对模型本身进行数据反哺。模型是啥？中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁？智子引擎。由人大高瓴人工智能学院博士生高一钊创立，高

美国空军高调展示首个AI战斗机！部长亲自试驾全程未干预，10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近，军事圈被这个消息刷屏了：美军的战斗机，已经能由AI完成全自动空战了。是的，就在最近，美军的AI战斗机首次公开，揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机（VISTA），由美空军部长亲自搭乘，模拟了一对一的空战。5月2日，美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意，在一小时的飞行中，所有飞行动作都由AI自主完成！Kendall表示——在过去的几十年中，我们一直在思考自主空对空作战的无限潜力，但它始终显得遥不可及。然而如今，

See all articles

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

大模型的「奉承」 程度及影响

理解语言模型中的阿谀奉承

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题

大模型的「奉承」程度及影响