首页 科技周边 人工智能 思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

Sep 05, 2023 pm 05:53 PM
工程 思维链

要让大型语言模型(LLM)充分发挥其能力,有效的 prompt 设计方案是必不可少的,为此甚至出现了 prompt engineering(提示工程)这一新兴领域。

在各种 prompt 设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的 CoT-SC 以及更进一步的思维树(ToT)也收获了大量关注。

近日,苏黎世联邦理工学院、Cledar 和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为 LLM 构建推理过程的能力不断得到提升,研究者也通过实验证明了这一点。他们也发布了自己实现的 GoT 框架。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

研究论文:https://arxiv.org/pdf/2308.09687v2.pdf

官方实现:https://github.com/spcl/graph-of-thoughts

论文概览

大型语言模型正在变成人工智能世界的主导技术。近些年高速发展的模型主要基于仅解码器 Transformer 的变体,比如 GPT、PaLM 或 LLaMA。

而在解决不同的 LLM 任务时,prompt 工程设计是一种能高效利用资源的方法。简单来说,就是在发送给 LLM 的输入中包含对任务的描述。如果能以适当的形式描述该任务,那么 LLM 就能借助其用于生成文本的基于自回归 token 的机制来解决该任务。这样的 prompt 可能包含带有解答的示例任务(少样本 prompt 设计,也被称为上下文学习(ICL),也可能完全不包含示例任务(零样本 prompt 设计)。近些年的研究和应用表明,这一机制可用于解决涉及数学、常识或符号推理的多种类型的任务。

思维链(CoT)便是一种用于设计 prompt 的方法,即 prompt 中除了有任务的输入和输出外,还包含推理的中间步骤(中间思维)。研究表明,CoT 能极大地提升 LLM 的能力,使之无需任何模型更新便能解决一些难题。

也有研究者改进了 CoT,提出了使用 CoT 实现自我一致的方法(CoT-SC);这个方案是生成多个 CoT,再选出其中最佳的结果。

最近还有研究者更进一步提出了思维树(ToT),其做法是通过树(tree)来建模 LLM 推理过程。这能让模型使用不同的思维路径,并能提供全新的功能,比如基于不好的结果反向回溯推理过程。不幸的是,由于 ToT 方法为思维过程强加了严格的树结构,所以会极大限制 prompt 的推理能力。更多详情请参阅本站文章《思考、思考、思考不停歇,思维树 ToT「军训」LLM》

苏黎世联邦理工学院、Cledar 和华沙理工大学的这个研究团队认为,如果能将 LLM 的思维构建成任意的图结构,那么就能为 prompt 的能力带来重大提升。他们表示,这一想法受到了多种现象的启发,比如人类的推理方式、大脑结构和算法的执行方式。

在进行思考时,人类不会像 CoT 那样仅遵循一条思维链,也不是像 ToT 那样尝试多种不同途径,而是会形成一个更加复杂的思维网。举个例子,一个人可能会先探索一条思维链,然后回溯再探索另一条,然后可能会意识到之前那条链的某个想法可以和当前链结合起来,取长补短,得到一个新的解决方案。类似地,大脑会形成复杂的网络,呈现出类似图的模式,比如循环模式。算法执行时也会揭示出网络的模式,这往往可以表示成有向无环图。

研究者表示,如果将这种对应的图使能的变换用于 LLM 思维,那么有望创造一种强大的设计 prompt 的方法,但这种变换无法通过 CoT 或 ToT 自然地表达出来。

然后他们观察到:如果将 LLM 的推理过程建模成图,那么就能自然地实现这些以及其它许多思维变换。基于这一观察,他们提出了思维图(GoT/Graph of Thoughts),这种方法可以通过网络形式的推理来增强 LLM 的能力。

在 GoT 中,一个 LLM 思维会被建模成一个顶点,顶点之间的依赖关系则建模为边。使用 GoT,通过构建有多于一条输入边的顶点,可以将任意思维聚合起来。整体而言,GoT 使用的图抽象方法可无缝地将 CoT 和 ToT 泛化到更复杂的思维模式,而且这个过程无需更新模型。

然而,要实际实现 GoT,还需要解决一些设计上的挑战。比如,对于不同的任务,最佳的图结构是什么样的?为了最大化准确度和最小化成本,聚合思维的最好方法是什么?

为了解答这些问题以及更多其它问题,这些研究者设计了一种实现 GoT 的模块化架构。该设计有两大亮点。

一是可实现对各个思维的细粒度控制。这让用户可以完全控制与 LLM 进行的对话并使用先进的思维变换,比如将正在进行的推理中两个最有希望的思维组合起来得到一个新的。

二是这种架构设计考虑了可扩展性 —— 可无缝地扩展用于新的思维变换、推理模式(即思维图)和 LLM 模型。这让用户可使用 GoT 快速为 prompt 的新设计思路构建原型,同时实验 GPT-3.5、GPT-4 或 Llama-2 等不同模型。

研究者也展现了 GoT 的一些用例(排序、摘要的关键词计数、集合运算、文档合并),他们还详细说明了如何使用基于图的范式来实现它们。他们通过实验评估了 GoT,展现了其相对于其它当前最佳方法的优势。

研究者表示,整体而言,GoT 尤其适用于可自然分解成更小子任务的任务,并且这些子任务可以分开解决,然后融合成一个最终解答。在这方面,GoT 的表现优于其它方案,比如在排序任务上,GoT 分别优于 CoT 和 ToT 约 70% 和 62%,同时成本还比 ToT 低 31% 以上。

表 1 给出了 GoT 与其它 prompt 设计方案的定性比较。GoT 是唯一一种能在一个 prompt 内实现任意基于图的思维变换的方案(比如聚合),从而能将之前的所有方案囊括进来。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

他们还有另一项贡献,即提出一种新的评估指标 —— 思维容量(the volume of a thought),可用于评估 prompt 设计策略。研究者表示,使用这一指标的目标是更好地理解 prompt 设计方案之间的差异。

对于一个给定的思维 v,v 的容量是指 LLM 思维的数量,用户可以基于此使用有向边得到 v。直观上说,这些就是有望对 v 做出贡献的所有 LLM 思维。

作者通过研究表明,通过整合聚合等思维变换技术,GoT 能让思维容量比其它方案显著更大。

GoT 框架

下面详细介绍一下 GoT 框架。其示意图见图 1,图中还给出了其它 prompt 设计策略的示意图。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

在数学形式上,GoT 可以建模为一个元组 (G, T, E, R),其中 G 是 LLM 推理过程(即上下文中的所有 LLM 思维及其关系),T 是可能的思维变换,E 是用于获得思维分数的评估器函数,R 是用于选择最相关思维的排序函数。

推理过程

这里,推理过程被建模为一个有向图 G = (V, E),其中 V 是一组顶点,E ⊆ V × V 是一组边。G 是有向的,因此边是有序顶点对 E ⊆ V × V 的子集。一个顶点包含对当前问题的一个解答,不管这个问题是最初的问题、还是中间问题或最后的问题。这种思维的具体形式取决于用例;其可能是一段文本(在写作任务中),也可能是一个数值序列(在排序任务中)。有向边 (t_1, t_2) 表示思维 t_2 的构建方式是将 t_1 用作「直接输入」,即通过明确指示 LLM 使用 t_1 来生成 t_2。

在某些用例中,图节点属于不同类别。举个例子,在写作任务中,某些顶点建模写出一段文本的计划,其它节点则建模实际的文本段。在这种情况下,GoT 采用异构图 G = (V, E, c) 来建模 LLM 推理,其中 c 将顶点 V 映射到各自的类 C(在上述案例中,C = {plan, par} )。这样一来,任何顶点 v 都可以建模推理的不同方面。

于是 G 就与 LLM 推理过程关联了起来。为了推进这一过程,用户可对 G 使用思维变换。举个这种变换的例子:将目前为止分数最高的思维融合成一个新的。另一个例子是对一个思维进行循环,以对其增强。注意,这些变换严格扩展了 CoT、CoT-SC 或 ToT 中可用转换的集合。

思维变换

得益于将基于图的模型用于推理,GoT 能实现全新的思维变换。研究者称之为图使能的变换(graph-enabled transformation)。比如,在写作任务中可以将多篇输入文章组合成一篇连贯一致的摘要。在排序时,可将多个已排序的数值子数组合并为一个最终已排序数组。图 2 给出了聚合和生成的示例。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

从数学形式上讲,每个这样的变换都可以建模成 T (G, p_θ),其中 G = (V, E) 是反映推理当前状态的图,p_θ 是所使用的 LLM。T 修改 G 的方式通常是通过添加新顶点及其传入边。于是有 G′ = T (G, p_θ) = (V′, E′),其中 V′ = (V ∪ {V^+}) {V^−} 且 E′ = (E ∪ {E^+}) {E^−}。V^+ 和 E^+ 是注入到 G 中的新顶点和边,它们分别建模的是新的思维和它们的依赖关系。

为了最大化 GoT 的表达能力,用户还可以删除思维,做法是指定要删除的相应顶点和边(分别为 V^− 和 E^−)。在这里,确保集合 V^+、E^+、V^− 和 E^− 有一致的变换是用户的责任(举个例子,用户不会尝试删除不存在的顶点)。这使得 prompt 方案能无缝整合,其中用户可以为了节省上下文中的空间而移除无法带来提升的推理部分。

T 的具体形式及其影响 G 的方式取决于具体的变换。下面首先详细介绍主要几个图使能的思维变换,然后会描述 GoT 何以囊括之前方案的变换。除非另有说明,V^− = E^− = ∅。

聚合变换:用户可以使用 GoT 将任意思维聚合成新思维,实现取长补短。这里看看只创建一个新顶点的基础形式:V^+ = {v^+} 且 E^+ = {(v_1, v^+), ...,(v_k, v^+)},其中 v_1, ..., v_k 是被融合的 k 个思维。更一般而言,这能实现对推理路径的聚合,即更长的思维链,而不只是单个思维。使用图模型,可以轻松实现聚合变换:通过添加来自建模了几条链中最后思维的顶点 v_1, ..., v_k 的传出边,使之指向组合这些链的单个思维 v^+。

细化变换:另一种思维变换是通过修改内容对当前思维 v 进行细化:V^+ = {} 和 E^+ = {(v, v)}。图中的这个循环表示与原始思维有同样连接的迭代版思维。

生成变换:最后,用户还可以基于已有的单个思维 v 生成一个或多个新思维。这一类别中包含 ToT 或 CoT-SC 等更早期方案中的类似推理步骤。从数学形式上讲,有 

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

对思维进行评分和排名

对思维评分的目的是为了理解当前的解答是否足够好。分数被建模为一个一般函数 E (v, G, p_θ),其中 v 是所要评估的思维。为了尽可能让 E 更普适通用,E 中还使用了推理的整个过程 (G),因为在某些评估场景中,分数可能与其它思维相关。

GoT 也能排名。研究者使用了函数 R (G, p_θ, h) 来建模,其中 h 指定了要被 R 返回的 G 中排名最高的思维的数量。虽然 R 的具体形式取决于用例,但最常使用一个简单而有效的方法是返回分数最高的 h 个思维,即 v_1, ..., v_h = R (G, p_θ, h)。

E 和 R 的具体形式取决于用例。

系统架构和扩展能力

GoT 由一组交互式模块构成,见图 3(蓝色部分)。这些模块是 Prompter(准备用于 LLM 的消息)、Parser(解析器,提取 LLM 答复中的信息)、评分模块(验证 LLM 答复并评分)、Controller(控制器,协调整个推理过程,并决定如何推进推理)。Controller 中包含另外两个重要组件:操作图(GoO)和图推理状态(GRS)。GoO 是一个静态结构,其指定了对给定任务的图分解,即它规定了应用于 LLM 思维的变换及其顺序和依赖关系。GRS 是一个动态结构,其维持着正在进行的 LLM 推理过程的状态(其思维及其状态的历史)。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

用例示例

研究者描述一些 GoT 的一些用例,包括排序、集合运算、关键词计数、文档合并;下图 4 便是 GoT 的排序用例中一个图分解示例。这里我们不对用例做详细介绍,详情参阅原论文。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了
思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

延迟与容量的权衡

延迟(在思维图中抵达给定最终思维的跳数)和容量之间的权衡也非常重要,研究者表明:GoT 在这一权衡上也优于之前的 prompt 设计方案。这篇论文定义了一个新指标 —— 思维容量,即可以影响给定思维 t 的之前 LLM 思维的数量。从数学上看,思维 t 的容量就是在思维图中,与 t 之间存在路径的思维的数量。研究者假设输出单个思维的成本为 O (1),并将每个提示方案的总成本固定为 Θ(n)。

各种方案的结构如下。CoT-SC 由源自单个起始思维的 k 条独立链构成。ToT 是一条完全 k 叉树。而在 GoT 中,会在其叶节点处加入一个完全 k 叉树,并带有一个「镜像」k 叉树 —— 其大小一样而边是反向的。

详细分析见表 2。CoT 的容量较大,最大可至 N,但也有 N 的高延迟成本。CoT-SC 将延迟降低了 k 倍(对应于其分支因子),但同时其容量也会减小 k 倍。ToT 的延迟为 log_k N,但容量也很低。GoT 是唯一能做到低延迟 log_k N 和高容量 N 的方案。GoT 之所以能做到这一点,是因为其利用了思维聚合,使其可从图分解中任何其它中间思维得到最终思维。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

评估

研究者通过实验展现了 GoT 相对于其它方案的优势。其中重点比较的是 GoT 和 ToT,因为 ToT 的表现已经优于其它方案了。当然,他们也还是用 IO、CoT 和 CoT-SC 做了些实验。

图 5(排序)、6(集合交集)、7(关键词计数)、8(文档合并)展示了实验结果。

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了
思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了
思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了
思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了

总体而言,在实验评估过的所有基准上,GoT 的输出质量都优于 ToT,并且还实现了更低的推理成本。

以上是思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM,它就能学会公理。AI已经在帮助数学家和科学家做研究了,比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚,强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现:在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说,如果让Transformer学会执行简单的因果推理,就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式,只有演示

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles