UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导-人工智能-PHP中文网

SPIN有效提升基准性能

首页

科技周边

人工智能

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 03, 2024 am 08:00 AM

gpt-4 llm ucla

合成数据已经成为了大语言模型进化之路上最重要的一块基石了。

去年底，有网友曝出前OpenAI首席科学家Ilya多次表示LLM的发展没有数据瓶颈，合成数据可以解决大部分问题。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

英伟达高级科学家Jim Fan在研究了最新一批论文后得出结论，他认为将合成数据与传统游戏和图像生成技术相结合，可以让LLM实现巨大的自我进化。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

而正式提出这个方法的论文，是由来自UCLA的华人团队。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

论文地址：https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

他们使用自我对弈机制（SPIN）生成合成数据，并通过自我微调的方法，不依赖新的数据集，将性能较弱的LLM在Open LLM Leaderboard Benchmark上的平均分从58.14提升至63.16。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

研究人员提出了一种名为SPIN的自我微调的方法，通过自我对弈的方式——LLM与其前一轮迭代版本进行对抗，从而逐步提升语言模型的性能。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

这样就无需额外的人类标注数据或更高级语言模型的反馈，也能完成模型的自我进化。

主模型和对手模型的参数完全一致。用两个不同的版本进行自我对弈。

对弈过程用公式可以概括为：

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

自我对弈的训练方式，总结起来思路大概是这样：

通过训练主模型来区分对手模型生成的响应和人类目标响应，对手模型是轮迭代获得的语言模型，目标是生成尽可能难以区分的响应。

假设第t轮迭代得到的语言模型参数为θt，则在第t+1轮迭代中，使用θt作为对手玩家,针对监督微调数据集中每个prompt x，使用θt生成响应y'。

然后优化新语言模型参数θt+1,使其可以区分y'和监督微调数据集中人类响应y。如此可以形成一个渐进的过程,逐步逼近目标响应分布。

这里，主模型的损失函数采用对数损失，考虑y和y'的函数值差。

对手模型加入KL散度正则化，防止模型参数偏离太多。

具体的对抗博弈训练目标如公式4.7所示。从理论分析可以看出,当语言模型的响应分布等于目标响应分布时,优化过程收敛。

如果使用对弈之后生成的合成数据进行训练，再使用SPIN进行自我微调，能有效提高LLM的性能。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

但之后在初始的微调数据上再次简单地微调却又会导致性能下降。

而SPIN仅需要初始模型本身和现有的微调数据集，就能使得LLM通过SPIN获得自我提升。

特别是，SPIN甚至超越了通过DPO使用额外的GPT-4偏好数据训练的模型。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

而且实验还表明，迭代训练比更多epoch的训练能更加有效地提升模型性能。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

延长单次迭代的训练持续时间不会降低SPIN的性能，但会达到极限。

迭代次数越多，SPIN的效果的就越明显。

网友在看完这篇论文之后感叹：

合成数据将主宰大语言模型的发展，对于大语言模型的研究者来说将会是非常好的消息！

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

自我对弈让LLM能不断提高

具体来说，研究人员开发的SPIN系统，是由两个相互影响的模型相互促进的系统。

用 UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导表示的前一次迭代t的LLM，研究人员使用它来生成对人工注释的SFT数据集中的提示x的响应y。

接下来的目标是找到一个新的LLM UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导，能够区分生成的响应y和人类生成的响应y'。

这个过程可以看作是一个两人游戏：

主要玩家或新的LLM UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导试图辨别对手玩家的响应和人类生成的响应，而对手或旧的LLM生成响应与人工注释的SFT数据集中的数据尽可能相似。

通过对旧的 UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导进行微调而获得的新LLM更喜欢的响应，从而产生与更一致的分布。

在下一次迭代中，新获得的LLM UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导成为响应生成的对手，自我对弈过程的目标是LLM最终收敛到，使得最强的LLM不再能够区分其先前生成的响应版本和人类生成的版本。

如何使用SPIN提升模型性能

研究人员设计了个两人游戏，其中主要模型的目标是区分LLM生成的响应和人类生成的响应。与此同时，对手的作用是产生与人类的反应无法区分的反应。研究人员的方法的核心是训练主要模型。

首先说明如何训练主要模型来区分LLM的回复和人类的回复。

研究人员方法的核心是自我博弈机制，其中主玩家和对手都是相同的LLM，但来自不同的迭代。

更具体地说，对手是上一次迭代中的旧LLM，而主玩家是当前迭代中要学习的新LLM。在迭代t+1时包括以下两个步骤：（1）训练主模型，（2）更新对手模型。

训练主模型

首先，研究人员将说明如何训练主玩家区分LLM反应和人类反应。受积分概率度量（IPM）的启发，研究人员制定了目标函数：

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

更新对手模型

对手模型的目标是找到更好的LLM，使其产生的响应与主模型的p数据无异。

实验

SPIN有效提升基准性能

研究人员使用HuggingFace Open LLM Leaderboard作为广泛的评估来证明 SPIN的有效性。

在下图中，研究人员将经过0到3次迭代后通过SPIN微调的模型与基本模型zephyr-7b-sft-full的性能进行了比较。

研究人员可以观察到，SPIN通过进一步利用SFT数据集，在提高模型性能方面表现出了显着的效果，而基础模型已经在该数据集上进行了充分的微调。

在第0次迭代中，模型响应是从zephyr-7b-sft-full生成的，研究人员观察到平均得分总体提高了2.66%。

在TruthfulQA和GSM8k基准测试中，这一改进尤其显着，分别提高了超过5%和10%。

在迭代1中，研究人员采用迭代0中的LLM模型来生成SPIN的新响应，遵循算法1中概述的过程。

此迭代平均产生1.32%的进一步增强，在Arc Challenge和TruthfulQA基准测试中尤其显着。

随后的迭代延续了各种任务增量改进的趋势。同时，迭代t+1时的改进自然更小

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

zephyr-7b-beta是从zephyr-7b-sft-full衍生出来的模型，使用DPO在大约62k个偏好数据上训练而成。

研究人员注意到，DPO需要人工输入或高级语言模型反馈来确定偏好，因此数据生成是一个相当昂贵的过程。

相比之下，研究人员的SPIN只需要初始模型本身就可以。

此外，与需要新数据源的DPO不同，研究人员的方法完全利用现有的SFT数据集。

下图显示了SPIN在迭代0和1（采用50k SFT数据）与DPO训练的性能比较。

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导图片

研究人员可以观察到，虽然DPO利用了更多新来源的数据，但基于现有SFT数据的SPIN从迭代1开始，SPIN甚至超过了DPO的性能、SPIN在排行榜基准测试中的表现甚至超过了DPO。

参考资料：

https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

以上是UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7675

CakePHP 教程

1393

C# 教程

1207

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

本地使用Groq Llama 3 70B的逐步指南 Jun 10, 2024 am 09:16 AM

译者|布加迪审校|重楼本文介绍了如何使用GroqLPU推理引擎在JanAI和VSCode中生成超快速响应。每个人都致力于构建更好的大语言模型（LLM），例如Groq专注于AI的基础设施方面。这些大模型的快速响应是确保这些大模型更快捷地响应的关键。本教程将介绍GroqLPU解析引擎以及如何在笔记本电脑上使用API和JanAI本地访问它。本文还将把它整合到VSCode中，以帮助我们生成代码、重构代码、输入文档并生成测试单元。本文将免费创建我们自己的人工智能编程助手。GroqLPU推理引擎简介Groq

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

加州理工华人用AI颠覆数学证明！提速5倍震惊陶哲轩，80%数学步骤全自动化 Apr 23, 2024 pm 03:01 PM

LeanCopilot，让陶哲轩等众多数学家赞不绝口的这个形式化数学工具，又有超强进化了？就在刚刚，加州理工教授AnimaAnandkumar宣布，团队发布了LeanCopilot论文的扩展版本，并且更新了代码库。图片论文地址：https://arxiv.org/pdf/2404.12534.pdf最新实验表明，这个Copilot工具，可以自动化80%以上的数学证明步骤了！这个纪录，比以前的基线aesop还要好2.3倍。并且，和以前一样，它在MIT许可下是开源的。图片他是一位华人小哥宋沛洋，他是

从“人+RPA”到“人+生成式AI+RPA”，LLM如何影响RPA人机交互？ Jun 05, 2023 pm 12:30 PM

图片来源@视觉中国文|王吉伟从“人+RPA”到“人+生成式AI+RPA”，LLM如何影响RPA人机交互？换个角度，从人机交互看LLM如何影响RPA？影响程序开发与流程自动化人机交互的RPA，现在也要被LLM改变了？LLM如何影响人机交互？生成式AI怎么改变RPA人机交互？一文看明白：大模型时代来临，基于LLM的生成式AI正在快速变革RPA人机交互；生成式AI重新定义人机交互，LLM正在影响RPA软件架构变迁。如果问RPA对程序开发以及自动化有哪些贡献，其中一个答案便是它改变了人机交互（HCI，h

Plaud 推出 NotePin AI 可穿戴录音机，售价 169 美元 Aug 29, 2024 pm 02:37 PM

Plaud Note AI 录音机（亚马逊有售，售价 159 美元）背后的公司 Plaud 宣布推出一款新产品。该设备被称为 NotePin，被描述为人工智能记忆胶囊，与 Humane AI Pin 一样，它是可穿戴的。 NotePin 是

七个很酷的GenAI & LLM技术性面试问题 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的内容，请访问：51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库，这些问题需要跳出常规思维。大语言模型（LLM）在数据科学、生成式人工智能（GenAI）和人工智能领域越来越重要。这些复杂的算法提升了人类的技能，并在诸多行业中推动了效率和创新性的提升，成为企业保持竞争力的关键。LLM的应用范围非常广泛，它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据，LLM能够生成文本

第二代Ameca来了！和观众对答如流，面部表情更逼真，会说几十种语言 Mar 04, 2024 am 09:10 AM

人形机器人Ameca升级第二代了！最近，在世界移动通信大会MWC2024上，世界上最先进机器人Ameca又现身了。会场周围，Ameca引来一大波观众。得到GPT-4加持后，Ameca能够对各种问题做出实时反应。「来一段舞蹈」。当被问及是否有情感时，Ameca用一系列的面部表情做出回应，看起来非常逼真。就在前几天，Ameca背后的英国机器人公司EngineeredArts刚刚演示了团队最新的开发成果。视频中，机器人Ameca具备了视觉能力，能看到并描述房间整个情况、描述具体物体。最厉害的是，她还能

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

关于Llama3，又有测试结果新鲜出炉——大模型评测社区LMSYS发布了一份大模型排行榜单，Llama3位列第五，英文单项与GPT-4并列第一。图片不同于其他Benchmark，这份榜单的依据是模型一对一battle，由全网测评者自行命题并打分。最终，Llama3取得了榜单中的第五名，排在前面的是GPT-4的三个不同版本，以及Claude3超大杯Opus。而在英文单项榜单中，Llama3反超了Claude，与GPT-4打成了平手。对于这一结果，Meta的首席科学家LeCun十分高兴，转发了推文并

See all articles

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

SPIN有效提升基准性能

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题