大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好-人工智能-PHP中文网

首页

科技周边

人工智能

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 05, 2024 pm 08:48 PM

deepmind 工程

Angesichts der derzeit gängigen Praxis, bei der Feinabstimmung großer Modelle hauptsächlich auf von Menschen generierten Daten zu basieren, hat Google DeepMind nach einem effizienteren Weg gesucht, diese Abhängigkeit zu verringern.

Wie Sie und ich sehen können, verändern Large Language Models (LLMs) die Deep-Learning-Landschaft und demonstrieren überlegene Fähigkeiten bei der Generierung von Texten in menschlicher Qualität und der Lösung verschiedener Sprachaufgaben. Während die Branche die Leistung bei bestimmten Aufgaben durch die überwachte Feinabstimmung der von Menschen gesammelten Daten weiter verbessert hat, stößt die Beschaffung hochwertiger menschlicher Daten auf erhebliche Engpässe. Dies gilt insbesondere für Aufgaben, bei denen es um die Lösung komplexer Probleme geht, die erhebliche Ressourcen und Fachwissen erfordern.

Wie löst man das Problem? Durch Modelle generierte synthetische Daten sind eine vielversprechende Alternative, die skalierbar und kostengünstig sein kann, solange die Qualität der Daten erhalten bleibt.

Während LLM in der Lage ist, die generierten Daten selbst auszuwerten, untersucht Google DeepMind in diesem Artikel einen einfacheren Aufbau, der ein externes skalares Feedback-Signal als Qualitätsindikator für jede generierte Probe verwendet.

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

Papieradresse: https://arxiv.org/pdf/2312.06585.pdf

Um das Training anhand modellgenerierter Daten zu untersuchen, erwogen die Forscher ein einfaches, aber leistungsstarkes Sprachmodell zum Selbsttraining Die Methode erfordert nur zwei Funktionen: Die eine besteht darin, Stichproben basierend auf dem Modell zu generieren, und die andere darin, den Bewertungsmechanismus zur Bewertung dieser Stichproben zu verwenden.

Um Klarheit und Konsistenz zu gewährleisten, haben die Forscher eine verstärkende Selbsttrainingsmethode ReST^?? übernommen und bewiesen, dass diese Methode Erwartungsmaximierung (EM) für verstärkendes Lernen nutzen kann. Insbesondere wechselt ReST^?? zwischen Erwartungs- und Maximierungsschritten.

Generierung (E-Schritt): Das Sprachmodell generiert mehrere Ausgabebeispiele für jeden Eingabekontext und filtert diese Beispiele dann mithilfe binärer Belohnungen, um einen Trainingsdatensatz zu sammeln.
Verbesserung (M-Schritt): Das ursprüngliche Sprachmodell wird überwacht, anhand des Trainingsdatensatzes aus dem vorherigen E-Schritt verfeinert und dann im nächsten E-Schritt verwendet.

Forscher bestätigten, dass ReST^?? und seine Varianten bei der Verbesserung von Sprachmodellen in verschiedenen Bereichen erfolgreich waren, darunter maschinelle Übersetzung, semantische Analyse, Präferenzausrichtung und grundlegendes Denken.

Darüber hinaus wurde in früheren Arbeiten hauptsächlich ReST^??für relativ kleine Modelle (bis zu 7 Milliarden Parameter) verwendet, mit begrenzter Skalierbarkeit für größere Modelle. Daher zielt dieser Artikel darauf ab, die Wirksamkeit und Skalierbarkeit von modellgenerierten synthetischen Daten im Vergleich zu von Menschen generierten Daten in zwei anspruchsvollen, aber weniger untersuchten Bereichen zu untersuchen: Mathematische Problemlösung auf Wettbewerbsniveau (MATH) und Codegenerierung (APPS).

Empirische Ergebnisse zeigen, dass bei der Verwendung von ReST^?? für PaLM 2-Modelle unterschiedlicher Größe erhebliche Leistungsverbesserungen bei mathematischen Argumentations- und Codegenerierungsaufgaben erzielt werden. Modelle, die auf vom Modell generierten synthetischen Daten verfeinert wurden, erzielten größere Leistungssteigerungen als Modelle, die auf von Menschen geschriebenen Daten trainiert wurden. Interessanterweise nimmt die Leistung ab einer bestimmten Anzahl von ReST^??-Iterationen ab, was auf die Möglichkeit einer Überanpassung bei einer kleinen Anzahl von Trainingsproblemen hinweist.

Darüber hinaus wurde das Modell mithilfe von ReST verfeinert^?? Die Pass@k-Metrik und die Mehrheitsabstimmungsleistung wurden verbessert. Diese fein abgestimmten Modelle zeigen auch Leistungsverbesserungen bei relevanten, aber ausgebliebenen Benchmarks, darunter Mathematik (GSM8K und ungarische HS-Finale), Codierung (HumanEval) und Big-Bench-Schweraufgaben.

Zusammenfassend zeigen die Ergebnisse dieser Arbeit, dass Selbsttraining mit Feedback eine vielversprechende Methode ist, um die Abhängigkeit von menschlichen Daten zu reduzieren.

Erwartetes Maximum (EM) für das verstärkende Selbsttraining

Erstens basiert diese Studie auf der früheren Forschung von Dayan und Hinton und verwendet ein Sprachmodell zur Beschreibung des EM-basierten Rahmens für verstärkendes Lernen . Insbesondere definierten sie zunächst eine binäre optimale Variable O mit ?(?= 1|?,?)∝?(?(?,?)); dann erreichten sie für die nicht abnehmende Funktion ?: ℝ → ℝ+ die Maximierung Beobachtung?= 1 (Erzielung einer hohen Belohnung), wird die folgende Formel erhalten:

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

然而，求解上式中的序列 ? 的和很棘手。因而本文考虑相对于参数 ? 和变分分布 ?( ?|?) 最大化其 ELBO ?( ??, ?)，而不是最大化 log ?(? = 1; ?)。具体来说：

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

公式（2）中的 EM 算法在 E-step（Expectation）和 M-step（Maximization）之间交替进行。

ReST^??：受 EM 框架的启发，接下来论文讨论了 Gulcehre 等人提出的 ReST 方法的简化版本。为了清楚起见，本文将这种方法称为 ReST^??，它将 RL pipeline 中的数据收集 (E-step) 和策略优化 (M-step) 进行解耦。如算法 1 所示：

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

生成（E-step）：在此步骤中，该研究通过从当前策略 ?? 大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

中采样输出序列来生成数据集大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

。在这里，输入是从原始数据集大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

中重新采样的。然后使用二元奖励函数 ?(?, ?) 对大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

中的输出序列进行评分。

改进（M-step）：在第 ?步迭代中，该研究使用 E-step 中的新数据集大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

来微调策略 ??。不同于 Gulcehre 的研究，他们微调基本预训练语言模型，以最大限度地减少特定于任务的过度拟合并最大限度地减少与基本模型的偏差。为了进行微调，该研究最小化奖励加权负对数似然损失大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

。一旦策略得到改进，就可以再次创建质量更好样本的新数据集。

实验和分析

本文进行实验的主要目标是回答以下问题：

与人类生成的数据进行微调相比，ReST^??的效果如何？
需要多少次迭代才能获得最佳性能？ReST^??多长时间会导致训练集过度拟合？
ReST^??如何影响 pass@k 和多数投票表现？
如果用户在特定任务上使用模型生成的数据进行微调，是否会迁移到其他任务上？在广泛的任务中评估本文的微调模型时，与基本模型相比，性能是否会下降？
大约需要多少输入数据才能从 ReST^?? 获得大部分性能提升？ReST^??的一次迭代是否足够？

该研究使用 PaLM 2 模型和 Google Cloud 上的公共 API 进行实验，包括 PaLM 2-S (Bison)、PaLM 2-S* (Codey) 和 PaLM 2-L (Unicorn)。训练数据集采用 MATH 数据集和 APPS 数据集。

图 2 和图 3 分别显示了 ReST^??在 MATH 和 APPS 数据集上训练的性能。可以得出 MATH 受益于 ReST^?? 的多次迭代，无论是在 MATH 测试集上的性能还是迁移到 GSM8K 方面。另一方面可以看到 APPS 的大部分收益来自第一次迭代，而执行更多次迭代会导致 APPS 和 HumanEval 的性能下降。

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

训练和测试性能的差距。图 4 显示，虽然训练集性能随着 ReST^??迭代次数线性增加，但测试集性能却没有。对于 MATH，第一次迭代后测试性能改进很小，而对于 APPS，在第二次迭代中观察到性能回归。该研究猜测性能的回归可能是由于过度拟合造成的。由于 APPS 数据集的大小约为 MATH 数据集的三分之一，因此它更容易受到此问题的影响。

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

图 5 显示了 Palm-2-L 模型在 pass@K 指标上的性能。结果显示，微调后获得的 ReST^?? 模型对于所有 K 值都更强，其中性能差距通常在 K=1 时最大。大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

以上是大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

See all articles

大模型微调非得依赖人类数据吗？DeepMind：用带反馈的自训练更好

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题