自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能-人工智能-PHP中文网

首页

科技周边

人工智能

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

PHPz

Jan 23, 2024 pm 01:15 PM

meta 工程纽约大学自我奖励方法

人工智能的反馈（AIF）要代替 RLHF 了？

大模型领域中，微调是改进模型性能的重要一步。随着开源大模型逐渐变多，人们总结出了很多种微调方式，其中一些取得了很好的效果。

最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。

在新方法中，作者对 Llama 2 70B 进行了三个迭代的微调，生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

因此，论文刚刚发上 arXiv 几个小时就引起了人们的注意。

虽然目前方法还没有开源，但是人们认为论文中使用的方法描述清晰，复现起来应该不难。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

众所周知，使用人类偏好数据调整大语言模型（LLM）可以极大提高预训练模型的指令跟踪性能。在 GPT 系列中，OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法，让大模型可以从人类偏好中学习奖励模型，再使得奖励模型被冻结并用于使用强化学习训练 LLM，这种方法已获得了巨大的成功。

最近出现的新思路是完全避免训练奖励模型，并直接使用人类偏好来训练 LLM，如直接偏好优化（DPO）。在以上两种情况下，调优都受到人类偏好数据的大小和质量的瓶颈，并且在 RLHF 的情况下，调优质量还受到从它们训练的冻结奖励模型的质量的瓶颈。

在 Meta 的新工作中，作者提议训练一个自我改进的奖励模型，该模型不是被冻结，而是在 LLM 调整期间不断更新，以避免这一瓶颈。

这种方法的关键是开发一个拥有训练期间所需的所有能力的智能体（而不是分为奖励模型和语言模型），让指令跟随任务的预训练和多任务训练允许通过同时训练多个任务来实现任务迁移。

因此作者引入了自我奖励语言模型，其智能体既充当遵循模型的指令，为给定的提示生成响应，也可以根据示例生成和评估新指令，以添加到他们自己的训练集中。

新方法使用类似于迭代 DPO 的框架来训练这些模型。从种子模型开始，如图 1 所示，在每次迭代中都有一个自指令创建过程，其中模型为新创建的提示生成候选响应，然后由同一模型分配奖励。后者是通过 LLM-as-a-Judge 的提示来实现的，这也可以看作是指令跟随任务。根据生成的数据构建偏好数据集，并通过 DPO 训练模型的下一次迭代。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

论文标题：Self-Rewarding Language Models
论文链接：https://arxiv.org/abs/2401.10020

自我奖励的语言模型

作者提出的方法首先假设：可以访问基本的预训练语言模型和少量人工注释的种子数据，然后建立一个模型，旨在同时拥有两种技能：

1. 指令遵循：给出描述用户请求的提示，能够生成高质量、有帮助（且无害）的响应。

2. 自指令创建：能够按照示例生成和评估新指令以添加到自己的训练集中。

使用这些技能是为了使模型能够执行自对准，即它们是用于使用人工智能反馈（AIF）迭代训练自身的组件。

自指令的创建包括生成候选响应，然后让模型本身判断其质量，即它充当自己的奖励模型，从而取代对外部模型的需求。这是通过 LLM-as-a-Judge 机制实现的 [Zheng et al., 2023b]，即通过将响应评估制定为指令跟随任务。这个自行创建的 AIF 偏好数据被用作训练集。

所以在微调过程中，相同的模型被用于两个角色：作为「学习者」和作为「法官」。基于新出现的法官角色，模型可以通过上下文微调来进一步提升性能。

整体的自对齐过程是一个迭代过程，通过以下步骤来进行：构建一系列模型，每个模型都比上一个模型有所改进。在这其中重要的是，由于模型既可以提高其生成能力，又可以通过相同的生成机制作为自己的奖励模型，这意味着奖励模型本身可以通过这些迭代来改进，这就与奖励模型固有的标准做法出现了不同。

研究者认为，此种方式可以提高这些学习模型未来自我改进的潜力上限，消除限制性瓶颈。

图 1 展示了该方法的概述。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

实验

在实验中，研究者使用了 Llama 2 70B 作为基础预训练模型。他们发现，与基线种子模型相比，自奖励 LLM 对齐不仅提高了指令跟随表现，奖励建模能力也得到了提高。

这意味着在迭代训练中，模型能够在给定的迭代中为自己提供比上一次迭代质量更好的偏好数据集。虽然这种影响在现实世界中会趋于饱和，但提供了一种有趣的可能：这样得到的奖励模型（以及 LLM）要优于仅从人类撰写的原始种子数据里训练的模型。

在指令跟随能力方面，实验结果如图 3 所示：

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能研究者在 AlpacaEval 2 排行榜上评估了自奖励模型，结果如表 1 所示。他们观察到了与 head-to-head 评估相同的结论，即训练迭代的胜率比 GPT4-Turbo 高，从迭代 1 的 9.94%，到迭代 2 的 15.38%，再到迭代 3 的 20.44%。同时，迭代 3 模型优于许多现有模型，包括 Claude 2、Gemini Pro 和 GPT4 0613。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

奖励建模评估结果如表 2，结论包括：

EFT在SFT基线上有所改进，使用IFT+EFT与单独使用IFT相比，五个测量指标都有所提高。例如，与人类的成对准确率一致性从65.1%上升到78.7%。
通过自我训练提高奖励建模能力。进行一轮自我奖励训练后，模型为下一次迭代提供自我奖励的能力得到了提高，此外它的指令跟随能力也得到了提高。
LLMas-a-Judge 提示的重要性。研究者使用了各种提示格式发现，LLMas-a-Judge 提示在使用 SFT 基线时成对准确率更高。

作者认为，自我奖励的训练方式既提高了模型的指令跟踪能力，也提高了模型在迭代中的奖励建模能力。

虽然这只是一项初步研究，但看来已是一个令人兴奋的研究方向，此种模型能够更好地在未来的迭代中分配奖励，以改善指令遵循，实现一种良性循环。

这种方法也为更复杂的判断方法开辟了一定的可能性。例如，大模型可以通过搜索数据库来验证其答案的准确性，从而获得更准确和可靠的输出。

^{参考内容：}^{https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/}

以上是自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1668

CakePHP 教程

1427

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

首个超越GPT4o级开源模型！Llama 3.1泄密：4050亿参数，下载链接、模型卡都有了 Jul 23, 2024 pm 08:51 PM

快准备好你的GPU！Llama3.1终于现身了，不过出处却不是Meta官方。今日，Reddit上新版Llama大模型泄露的消息遭到了疯传，除了基础模型，还包括8B、70B和最大参数的405B的基准测试结果。下图为Llama3.1各版本与OpenAIGPT-4o、Llama38B/70B的比较结果。可以看到，即使是70B的版本，也在多项基准上超过了GPT-4o。图源：https://x.com/mattshumer_/status/1815444612414087294显然，3.1版本的8B和70

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代 Jul 24, 2024 pm 08:23 PM

刚刚，大家期待已久的Llama3.1官方正式发布了！Meta官方发出了「开源引领新时代」的声音。在官方博客中，Meta表示：「直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。现在，我们正在迎来一个开源引领的新时代。我们公开发布MetaLlama3.1405B，我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止，所有Llama版本的总下载量已超过3亿次，我们才刚刚开始。」Meta创始人、CEO扎克伯格也亲自写了篇长文《OpenSourceAIIsthePathForward》，

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

See all articles

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题