谷歌新方法ASPIRE:赋予LLM自我评分能力,有效解决「幻觉」问题,超越10倍体积模型
大模型的「幻觉」问题马上要有解了?
威斯康星麦迪逊大学和谷歌的研究人员最近推出ASPIRE系统,使大模型能够自评输出。
如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。
如果系统能够根据评分结果进一步筛选输出内容,例如当评分较低时,大模型可以生成类似"我无法回答此问题"的语句,这可能最大程度地改善幻觉问题。
论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能让LLM输出答案以及答案的置信度得分。
研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显着优于传统的选择性预测方法。
让LLM不仅要回答问题,还要评估这些答案 。
在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。
就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。
这就是ASPIRE的本质,它涉及三个阶段:
(1) 针对特定任务的调优,
(2) 答案采样,
( 3) 自我评估学习。
在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。
如果LLM可以成为决策过程中值得信赖的合作伙伴。
只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。
研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。
ASPIRE 的机制
针对特定任务的微调
ASPIRE执行特定于任务的微调以训练适应性参数,同时冻结LLM。
给定生成任务的训练数据集,它会微调预训练的LLM以提高其预测性能。
为此,可以采用参数高效的微调技术(例如,软提示词微调和LoRA)来微调任务上的预训练LLM,因为它们可以有效地通过少量目标获得强泛化任务数据。
具体来说,LLM参数(θ)被冻结,并添加自适应参数进行微调。
仅更新 θ (p) 以最小化标准 LLM 训练损失(例如交叉熵)。
这种微调可以提高选择性预测性能,因为它不仅提高了预测精度,而且还提高了正确输出序列的可能性。
答案采样
在针对特定任务进行调优后,ASPIRE使用LLM和学习到的为每个训练问题生成不同的答案,并创建用于自评估学习的数据集。
研究人员的目标是生成具有高可能性的输出序列。他们使用波束搜索(Beam Search)作为解码算法来生成高似然输出序列,并使用Rouge-L度量来确定生成的输出序列是否正确。
自评估学习
在对每个查询的高似然输出进行采样后,ASPIRE添加自适应参数,并且仅微调
来学习自评估。
由于输出序列的生成仅取决于 θ 和,因此冻结 θ 和学习到的
可以避免在学习自评估时改变LLM的预测行为-评估。
研究人员优化了,使得改编后的LLM可以自己区分正确和错误的答案。
在这个框架中,可以使用任何参数有效的微调方法来训练和
。
在这项工作中,研究人员使用软提示微调,这是一种简单而有效的机制,用于学习「软提示」来调节冻结的语言模型,从而比传统的离散文本提示更有效地执行特定的下游任务。
这种方法背后的核心在于认识到,如果能够开发出有效激发自我评价的提示,那么应该可以通过结合有针对性的训练目标的软提示微调来发现这些提示。
在训练和
后,研究人员通过波束搜索解码获得查询的预测(beam search decoding)。
然后,研究人员定义一个选择分数,将生成答案的可能性与学习到的自我评估分数(即,预测对于查询正确的可能性)结合起来,以做出选择性预测。
结果
为了证明ASPIRE的效果,研究人员使用各种开放式预训练Transformer (OPT)模型在三个问答数据集(CoQA、TriviaQA和SQuAD)上对其进行评估。
通过使用软提示调整训练研究人员观察到LLM的准确性大幅提高。
例如,与使用CoQA和SQuAD数据集的较大预训练OPT-30B模型相比,采用ASPIRE的OPT-2.7B模型表现出更好的性能。
这些结果表明,通过适当的调整,较小的LLM在某些情况下可能有能力匹配或可能超过较大模型的准确性。
当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。
例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。
TriviaQA数据集评估中出现了一个有趣的模式。
虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。
相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。
这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。
研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。
相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。
因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。
以上是谷歌新方法ASPIRE:赋予LLM自我评分能力,有效解决「幻觉」问题,超越10倍体积模型的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,
