GPT-4的人类化推理能力大幅提升!中国科学院提出「思维传播」,类比思考超越CoT,即刻应用
如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。
只需给出简单提示,它们就能进行文本推理、编写故事、回答问题、编程......
中国科学院和耶鲁大学的研究人员提出了一种新的框架,名为「思维传播」(Thought Propagation),旨在通过「类比思维」来增强LLM的推理能力
论文地址:https://arxiv.org/abs/2310.03965
「思维传播」灵感来自人类认知,即当遇到一个新问题时,我们经常将其与我们已经解决的类似问题进行比较,以推导出策略。
因此,这种方法的关键是在解决输入问题之前,探索与输入相关的“类似”问题
最后,它们的解决方案可以拿来即用,或提取有用计划的见解。
可以预见的是,「思维传播」在为LLM逻辑能力的固有限制提出的全新思路,让大模型像人类一样用「类比」方法解决难题。
LLM多步推理,败给人类
显而易见,LLM擅长根据提示进行基本推理,但在处理复杂的多步骤问题时仍有困难,比如优化、规划。
反观人类,他们会汲取类似经验中的直觉来解决新问题。
大型模型无法实现这一点,是由于其固有的限制所决定的
因为LLM的知识完全来自于训练数据中的模式,无法真正理解语言或概念。因此,作为统计模型,它们很难进行复杂的组合泛化。
LLM缺乏系统推理能力,无法像人类那样逐步推理,从而解决具有挑战性的问题,这是最最重要的
此外,由于大模型的推理是局部的和短视的,因此LLM很难找到最佳解决方案,并且在长时间范围内难以保持推理的一致性
总结起来,大模型在数学证明、战略规划和逻辑推理方面存在的问题主要可以归结为两个核心因素:
- 无法重用先前经验中的见解。
人类从实践中积累了可重复使用的知识和直觉,有助于解决新问题。相比之下,LLM在处理每个问题时都是 「从0开始」,不会借鉴先前的解决方案。
多步骤推理中的复合错误指的是在进行多步骤推理过程中出现的错误
人类会监控自己的推理链,并在必要时修改最初的步骤。然而,LLM在推理的早期阶段所犯的错误会被放大,因为它们会将后续的推理引向错误的方向
以上这些弱点,严重阻碍了LLM应对需要全局最优或长期规划的复杂挑战中的应用。
研究人员针对这个问题提出了一种全新的解决方法,即思维传播
TP框架
通过类比思维,让LLM能够像人类一样进行推理
在研究者看来,从0开始推理无法重复使用解决类似问题的见解,而且会在中间推理阶段出现错误累积。
而「思维传播」可以探索与输入问题相关的类似问题,并从类似问题的解决方案中获得启发。
下图展示了「思维传播」(TP)与其他代表性技术的比较。对于输入问题p,IO、CoT和ToT都需要从头开始推理,才能得出解决方案s
具体来说,TP包括了三个阶段:
1. 提出类似问题:LLM通过提示生成一组与输入问题有相似之处的类似问题。这将引导模型检索潜在的相关先前经验。
2. 解决类似问题:通过现有的提示技术,如CoT,让LLM解决每个类似的问题。
3. 汇总解决方案:有2种不同的途径——根据类比解决方案,直接推断出输入问题的新解决方案;通过比较输入问题的类比解决方案,推导出高级计划或策略。
通过这种方式,大型模型可以利用先前的经验和启发式方法,并且可以将其初始推理与类比解决方案进行交叉检查,以进一步完善这些解决方案
值得一提的是,「思维传播」与模型无关,可以在任何提示方法的基础上进行单个问题解决步骤
这个方法的独特之处在于激发LLM类比思维,从而引导复杂的推理过程
「思维传播」究竟能让LLM多像人类,还得实操结果来说话。
中国科学院和耶鲁的研究人员在3个任务中进行了评估:
- 最短路径推理:需要在图中找到节点之间的最佳路径需要全局规划和搜索。即使在简单的图上,标准技术也会失败。
- 创意写作:生成连贯、有创意的故事是一个开放式的挑战。当给出高层次的大纲提示时,LLM通常会失去一致性或逻辑性。
- LLM智能体规划:与文本环境交互的LLM智能体与长期战略方面举步维艰。它们的计划经常会出现「漂移」或陷入循环。
最短路径推理
在最短路径推理任务中,现有的方法遇到了无法解决的问题
尽管(a)中的图形非常简单,但由于推理从0开始,这些方法只能让LLM找到次优解(b,c),甚至重复访问中间节点(d)
以下是一个结合了TP和ToT使用的例子
由于中间推理步骤的错误累积,ToT (b) 无法解决 (a) 中的问题。基于类似问题的解决方案,TP (c) 完善了最初的次优解决方案,并最终找到了最优解决方案。
通过与基线比较,TP在处理最短路径任务中的性能显著提升了12%, 生成了最优和有效的最短路径。
此外,由于在线重写(OLR)的最低值,与基准线相比,生成的有效路径(TP)最接近最优路径
此外,研究人员还对TP层数对最短路径任务的复杂性和性能进行了进一步研究
在不同设置下,1层TP的token成本与ToT类似。但是,1层TP在寻找最优最短路径方面,已经取得了非常有竞争力的性能。
此外,与0层TP(IO)相比,1层TP的性能增益也非常显着。图5 (a) 显示了2层TP的token成本增加。
创意写作
下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。
LLM智能体规划
在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。
TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。
根据上述实验结果表明,「思维传播」可以应用于各种不同的推理任务,并且在所有这些任务中表现出色
增强LLM推理的关键
「思维传播」模型为复杂的LLM推理提供了一种全新的技术。
类比思维是人类解决问题能力的标志,它可以带来一系列系统性的优势,比如更高效的搜索和错误纠正
在类似的情况下,LLM也可以通过提示类比思维来更好地克服自身的弱点,比如缺乏可重用的知识和级联的局部错误等
然而,这些研究结果有一些限制
生成有用的类比问题并保持推理路径的简洁并不容易。此外,更长的链式类比推理路径可能会变得冗长而难以理解。同时,控制和协调多步推理链也是一个相当困难的任务
不过,「思维传播」还是通过创造性地解决LLM的推理缺陷,为我们提供了一个有趣的方法。
随着进一步的发展,类比思维可能会使LLM的推理能力变得更加强大。这也为在大型语言模型中实现更接近人类推理的目标指明了方向
作者介绍
Ran He(赫然)
他是中国科学院自动化研究所模式识别国家实验室和中国科学院大学的教授,同时也是IAPR Fellow和IEEE高级会员
他之前在大连理工大学获得了学士和硕士学位,并于2009年在中国科学院自动化研究所获得了博士学位
他的研究方向是生物识别算法(人脸识别与合成、虹膜识别、人物再识别)、表征学习(使用弱/自监督或迁移学习预训练网络)、生成学习(生成模型、图像生成、图像翻译)。
他在国际期刊和会议上发表了200多篇论文,其中包括IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT等知名国际期刊,以及CVPR、ICCV、ECCV、NeurIPS等顶级国际会议
他是IEEE TIP、IEEE TBIOM和Pattern Recognition编委会成员,还曾担任CVPR、ECCV、NeurIPS、ICML、ICPR和IJCAI等国际会议的区域主席
Junchi Yu(俞俊驰)
俞俊驰是中国科学院自动化研究所的博士四年级学生,他的导师是赫然教授
他之前在腾讯人工智能实验室实习过,与Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授一起工作过。现在,他是耶鲁大学计算机科学系的交流生,师从Rex Ying教授
他的目标是研发一种具有良好可解释性和可移植性的可信图学习(TwGL)方法,并探索其在生物化学领域的应用
以上是GPT-4的人类化推理能力大幅提升!中国科学院提出「思维传播」,类比思考超越CoT,即刻应用的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的
