从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」-人工智能-PHP中文网

首页

科技周边

人工智能

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

王林

Jun 24, 2024 pm 03:04 PM

工程对齐算法 TDPO

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显着，标志着向更加人性化 AI 迈出的关键一步。

尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。 DPO 通过数学推理得到奖励函数与最优策略之间的直接映射，消除了奖励模型的训练过程，直接在偏好数据上优化策略模型，实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度，还增强了算法的稳健性，迅速成为业界的新宠。

然而，DPO 主要关注在逆 KL 散度约束下的策略优化。由于逆 KL 散度的 mode-seeking 特性，DPO 在提升对齐性能方面表现出色，但是这一特性也倾向于在生成过程中减少多样性，可能限制模型的能力。另一方面，尽管 DPO 从句子级的角度控制 KL 散度，模型的生成过程本质上是逐个 token 进行的。从句子级控制 KL 散度直观上表明 DPO 在细粒度控制上存在限制，对 KL 散度的调节能力较弱，可能是 DPO 训练过程中 LLM 的生成多样性迅速下降的关键因素之一。

为此，来自中科院和伦敦大学学院的汪军与张海峰团队提出了一种从 token-level 角度建模的大模型对齐算法：TDPO。

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

论文标题：Token-level Direct Preference Optimization
论文地址：https://arxiv.org/abs/2404.11999
代码地址：https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

为了应对模型生成多样性显着下降的问题，TDPO 从token-level 的角度重新定义了整个对齐流程的目标函数，并通过将Bradley-Terry 模型转换为优势函数的形式，使得整个对齐流程能最终从Token-level 层面进行分析和优化。相比于DPO 而言，TDPO 的主要贡献如下：

Token-level 的建模方式：TDPO 从Token-level 的角度对问题进行了建模，对RLHF 进行了更精细的分析；
细粒度KL 散度约束：在每个token 处从理论上引入了前向KL 散度约束，使方法能够更好地约束模型优化；
性能优势明显：相比于DPO 而言，TDPO 能够实现更好的对齐性能和生成多样性的帕累托前沿。

DPO 与 TDPO 的主要区别如下图所示：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

^{图 1：DPO 的对齐优化方式。 DPO 从 sentence-level 的角度进行建模}

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

^{图 2：TDPO 的对齐优化方式。 TDPO 从token-level 的角度进行建模，并在每个token 处引入了额外的前向KL 散度约束，如图中红色部分所示，控制模型偏移程度的同时，充当了模型对齐的baseline}

下面介绍两者方法的具体推导过程。

背景：直接偏好优化（DPO）

DPO 通过数学推导，得到了奖励函数与最优策略之间的直接映射，消除了RLHF 过程中的奖励建模阶段：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

将公式(1) 代入Bradley-Terry (BT) 偏好模型中，得到直接策略优化（DPO）损失函数:

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

其中从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」是由来自偏好数据集 D 的 prompt、获胜响应和失败响应构成的偏好对。

TDPO

符号标注

为了建模语言模型顺序的、自回归的生成过程，TDPO 将生成回复表示成 T 个 token 组成的形式从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」，其中，表示字母表（词汇表）。

当将文本生成建模为马尔可夫决策过程时，状态 state 定义为 prompt 和到当前 step 为止已生成的 token 的组合，表示为从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」，而动作 action 则对应于下一个生成的 token，表示为，token 级奖励定义为。

基于以上提供的定义，TDPO 为策略从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」建立了状态 - 动作函数、状态值函数和优势函数：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

其中，从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」表示折扣因子。

Token-level 角度的人类反馈强化学习

TDPO 理论上修改了 RLHF 的奖励建模阶段和 RL 微调阶段，将它们扩展为了从 token-level 角度考虑的优化目标。

对于奖励建模阶段， TDPO 建立了 Bradley-Terry 模型和优势函数之间的相关性：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

对于 RL 微调阶段，TDPO 定义了以下目标函数：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

推导

从目标 (4) 出发，TDPO 在每个 token 上推导了最优策略从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」和状态 - 动作函数之间的映射关系：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

其中，从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」表示配分函数。

将方程 (5) 代入方程 (3)，我们得到：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

其中，从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」表示策略模型和参考模型表示的隐式奖励函数差异，表示为

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

而从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」则表示和的序列级前向 KL 散度差异，按加权，表示为

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

基于方程 (8)，TDPO 最大似然损失函数可以建模为：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

考虑到在实际中，从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」损失倾向于增加，放大和之间的差异，TDPO 提出修改方程 (9) 为：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

其中从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」是一个超参数，而

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

这里，从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」表示停止梯度传播运算符。

我们将 TDPO 和 DPO 的损失函数总结如下：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

由此可见，TDPO 在每个 token 处引入了这种前向 KL 散度控制，使得在优化过程中能够更好地控制 KL 的变化，而不影响对齐性能，从而实现了更优的帕累托前沿。

实验设置

TDPO 在 IMDb，Anthropic/hh-rlhf、MT-Bench 上个数据集上进行了实验。

IMDb

在 IMDb 数据集上，该团队采用了 GPT-2 作为基模型，然后用 siebert/sentiment-roberta-large-english 作为奖励模型评估策略模型输出，实验结果如图 3 所示。

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

从图 3 (a) 中可以看出，TDPO (TDPO1,TDPO2) 能够达到比 DPO 更好的 reward-KL 的帕累托前沿，而从图 3 (b)-(d) 则可以看出，TDPO 在 KL 散度控制方面表现极为出色，远远优于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 数据集上，该团队采用了 Pythia 2.8B 作为基模型，采用两种方式评估模型生成的好坏：1）使用已有的指标；2）使用 GPT-4 评测。

对于第一种评估方式，该团队评测了不同算法训练的模型在对齐性能 (Accuracy) 和生成多样性 (Entropy) 上的权衡，如表 1 所示。

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

可以看到 TDPO 算法不仅在对齐性能 (Accuracy) 上优于 DPO 和 f-DPO，在生成多样性 (Entropy) 上也占据优势，在这两个大模型生成回复的关键指标上达到了更好的权衡。

而对于第二种评估方式，该团队评测了不同算法训练的模型和人类偏好的吻合度，与数据集中的获胜响应作对比，如图 4 所示。

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

DPO、TDPO1 和 TDPO2 算法在温度系数为 0.75 的情况下均能够达到对获胜响应的胜率高于 50%，较好地符合人类偏好。

MT-Bench

在论文中的最后一个实验上，该团队采用了在 Anthropic HH 数据集上训练好的 Pythia 2.8B 模型直接用于 MT-Bench 数据集评测，结果如图 5 所示。

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在 MT-Bench 上，TDPO 能够达到比其他算法更高的获胜概率，这充分说明了 TDPO 算法训练的模型生成的响应的质量更高。

此外，有相关研究对 DPO、TDPO、SimPO 算法进行了对比，可参考链接：https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 脚本，评测了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的对齐算法 DPO、TDPO、SimPO 微调训练得到的性能，以下是实验的实验结果：

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

^{表格 2：DPO,TDPO,SimPO 算法性能对比}

了解更多结果，请参考原论文。

以上是从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1674

CakePHP 教程

1429

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题