首页 网络3.0 IVG:在推理时将人类价值观整合到大型语言模型中

IVG:在推理时将人类价值观整合到大型语言模型中

Oct 03, 2024 pm 03:16 PM
AI Integrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

研究人员在不更改基础模型的情况下使用隐式和显式函数对 LLM 进行微调后,开发了推理时间对齐方法来整合人类价值观。

IVG:在推理时将人类价值观整合到大型语言模型中

在使用基于学习的算法训练模型后整合人类价值观需要对 LLM 进行微调,这在计算上是昂贵且耗时的。此外,它还会引起用户的有偏见和不良反应。我们需要一种能够通过集成可在推理时进行干扰的算法来有效地实时适应用户偏好的模型。此方法将通过冻结基础模型并减少微调 LLM 的计算成本来避免重复重新训练模型以获得所需结果。

研究人员在使用隐式和显式函数对法学硕士进行微调后,开发了推理时间对齐方法来整合人类价值观,而无需更改基础模型。隐式函数用于标记生成,逐字评估并优先选择概率最高的输出。相比之下,显式函数需要严格的结构来评估较大的文本块,并以最高的概率生成以下单词序列,同时保持整体上下文。显式函数不灵活且计算量大,无法解决 token 级别的优化,而隐式函数面临可解释性问题,需要频繁的前向传递,导致实时效率较低。

为了解决这两个函数的缺点,所提出的方法集成价值指导(IVG)结合了隐式函数的代币级优化和显式函数的更广泛的视角。它能够避免适应挑战和对齐效率的权衡,从而减少性能差异并使其更容易实施。这些优势有助于更好地执行受控情绪生成和摘要等任务。 IVG 与 GPT-2 等较小模型相结合,可以与更高模型竞争。

IVG 结合了两个价值函数,即隐式函数和显式函数,以使模型与人类价值观保持一致。首先,按标记采样将各个标记微调到特定的序列长度,生成多个序列。然后,块级波束搜索比较这些序列的概率并选择概率最高的一个。虽然这种方法保证了输出更加鲁棒,但由于频繁的前向传递,计算能力在推理时间内增加,导致响应速度变慢。

研究人员使用了两种实验设置来评估 IVG:1. 受控情绪生成和总结,2. 遵循指令。在第一个模型中,GPT-2 模型系列通过利用黄金奖励模型的合成数据集来生成积极的电影评论并总结 Reddit 帖子。相比之下,第二个需要指令调整模型 AlpacaEval 2.0。它采用了 Tulu Guidance,它使用隐式函数的特定模型,并为显式函数训练基于奖励的模型,以及 Ultraguidance,它使用直接偏好优化 (DPO) 对这两种函数的模型进行微调。第二次实验中使用 GPT-4-turbo 作为参考来评估反应,IVG 始终表现良好。

除了这两个实验之外,一项消融研究证明,Chunk-Level Beam Search (CBS) 比使用隐式函数进行微调的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。这些结果证明CBS在实践中使用起来要好得多。

总之,综合价值指导(IVG)提供了一种新颖而有效的方法,可以纯粹在推理时将大型语言模型与人类偏好保持一致,从而绕过传统微调的复杂性。通过利用隐式和显式价值函数,IVG 增强了 token-wise 采样和块级解码的性能,正如情感生成、摘要和指令跟踪任务方面的显着改进所证明的那样。结果表明,IVG 是一种多功能方法,提供了强有力的经验证据,证明其超越现有方法的能力,使其成为在现实应用中微调大型模型的有前景的解决方案。

别忘了加入我们的 50k ML SubReddit

想要面对 100 万人工智能读者吗?在这里与我们一起工作

以上是IVG:在推理时将人类价值观整合到大型语言模型中的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

英特尔市场 (INTL) 可能成为年度加密货币,卡尔达诺 (ADA) 持有者在硬分叉之前实现多元化 英特尔市场 (INTL) 可能成为年度加密货币,卡尔达诺 (ADA) 持有者在硬分叉之前实现多元化 Aug 25, 2024 am 03:49 AM

随着旁观资本开始进入,加密货币市场正在经历重大的情绪转变。由于对即将到来的反弹的预期,Near Protocol (NEAR) 和 Cardano (ADA) 等项目正在升温。

Shytoshi Kusama 暗示即将与 AI 项目 NFA Labs 合作 Shytoshi Kusama 暗示即将与 AI 项目 NFA Labs 合作 Aug 09, 2024 am 06:27 AM

草间弥俊 (Shytoshi Kusama) 是领导柴犬生态系统的神秘人物,引发了人们对即将与人工智能项目合作的猜测。

Coinbase 和 Tether 推出人工智能平台,为区块链领域的开发人员提供支持 Coinbase 和 Tether 推出人工智能平台,为区块链领域的开发人员提供支持 Oct 29, 2024 am 03:24 AM

Coinbase 的“Based Agent”平台和 Tether 的本地 AI SDK 旨在简化 AI 驱动的加密货币代理的开发。

苹果人工智能将改变游戏规则,人工智能币下周可能会上涨 苹果人工智能将改变游戏规则,人工智能币下周可能会上涨 Sep 09, 2024 am 03:15 AM

苹果已为周一发布 iPhone 16 做好准备,准备向 iPhone 消费者介绍生成式人工智能,大力推动生成式人工智能的发展

Firecoin 筹集 120 万美元,将人工智能驱动的代币洞察引入 TON 生态系统 Firecoin 筹集 120 万美元,将人工智能驱动的代币洞察引入 TON 生态系统 Oct 25, 2024 am 12:12 AM

投资加密货币市场可能非常有利可图,新代币偶尔可为投资者带来高达 160,000% 以上的年回报。

Launchpool孵化基于TON区块链的人工智能生态系统ONAI Launchpool孵化基于TON区块链的人工智能生态系统ONAI Aug 05, 2024 pm 03:32 PM

这种合作伙伴关系标志着将商业人工智能代理和自动化集成到 Web3 空间方面取得了重大进展。

Sui (SUI) 和 GoodEgg (GEGG):九月加密货币市场值得关注的两个有前途的项目 Sui (SUI) 和 GoodEgg (GEGG):九月加密货币市场值得关注的两个有前途的项目 Sep 12, 2024 pm 09:01 PM

随着加密货币市场面临波动趋势,精明的投资者开始将注意力转向具有韧性和增长潜力的新兴项目。由于对比特币(BTC)价格波动轨迹的担忧,

尽管有'死币”的说法,卡尔达诺(ADA)仍保持前十名,探索人工智能集成 尽管有'死币”的说法,卡尔达诺(ADA)仍保持前十名,探索人工智能集成 Aug 17, 2024 am 06:41 AM

近几个月来,卡尔达诺 [ADA] 面临批评,一些人因其价格趋势而将其贴上“死币”的标签。然而,尽管存在这种负面影响