思維鏈CoT進化成思考圖GoT,比思考樹更優秀的提示工程技術誕生了
要讓大型語言模型(LLM)充分發揮其能力,有效的 prompt 設計方案是必不可少的,為此甚至出現了 prompt engineering(提示工程)這一新興領域。
在各種prompt 設計方案中,思維鏈(CoT)憑藉其強大的推理能力吸引了許多研究者和用戶的眼球,基於其改進的CoT-SC 以及更進一步的思維樹(ToT )也收穫了大量關注。
近日,蘇黎世聯邦理工學院、Cledar 和華沙理工大學的一個研究團隊提出了更進一步的想法:思維圖(GoT)。讓思考從鏈到樹到圖,為 LLM 建構推理過程的能力不斷提升,研究者也透過實驗證明了這一點。他們也發布了自己實現的 GoT 框架。

研究論文:https://arxiv.org/pdf/2308.09687v2.pdf
官方實作:https://github.com/spcl /graph-of-thoughts
論文概覽
大型語言模型正在變成人工智慧世界的主導技術。近年來高速發展的模型主要基於僅解碼器 Transformer 的變體,例如 GPT、PaLM 或 LLaMA。
而在解決不同的 LLM 任務時,prompt 工程設計是一種能有效利用資源的方法。簡單來說,就是在傳送給 LLM 的輸入中包含任務的描述。如果能以適當的形式描述該任務,那麼 LLM 就能藉助其用於生成文本的基於自回歸 token 的機制來解決該任務。這樣的prompt 可能包含帶有解答的範例任務(少樣本prompt 設計,也被稱為上下文學習(ICL),也可能完全不包含範例任務(零樣本prompt 設計)。近些年的研究和應用表明,此機制可用於解決涉及數學、常識或符號推理的多種類型的任務。
思維鏈(CoT)便是一種用於設計prompt 的方法,即prompt 中除了有任務的輸入和輸出外,還包含推理的中間步驟(中間思維)。研究表明,CoT 能極大地提升LLM 的能力,使之無需任何模型更新便能解決一些難題。
也有研究者改進了CoT,提出了使用CoT 實現自我一致的方法(CoT-SC);這個方案是產生多個CoT,再選出其中最佳的結果。
最近還有研究者更進一步提出了思維樹(ToT),其做法是透過樹(tree)來建模LLM 推理過程。這能讓模型使用不同的思維路徑,並能提供全新的功能,例如基於不好的結果反向回溯推理過程。不幸的是,由於ToT 方法為思考過程強加了嚴格的樹結構,所以會極大限制prompt 的推理能力。更多詳情請參閱本站文章《思考、思考、思考不停歇,思維樹ToT“軍事訓練」LLM》。
蘇黎世聯邦理工學院、Cledar 和華沙理工大學的這個研究團隊認為,如果能將LLM 的思維建構成任意的圖結構,那麼就能為prompt 的能力帶來重大提升。他們表示,這個想法受到了多種現象的啟發,例如人類的推理方式、大腦結構和演算法的執行方式。
在進行思考時,人類不會像CoT 那樣僅遵循一條思維鏈,也不是像ToT 那樣嘗試多種不同途徑,而是會形成一個更複雜的思維網。舉個例子,一個人可能會先探索一條思維鏈,然後回溯再探索另一條,然後可能會意識到之前那條鏈的某個想法可以和當前鏈結合起來,取長補短,得到一個新的解決方案。類似地,大腦會形成複雜的網絡,呈現出類似圖的模式,比如循環模式。演算法執行時也會揭示出網路的模式,這往往可以表示成有向無環圖。
研究者表示,如果將這種對應的圖使能的變換用於LLM 思維,那麼有望創造一種強大的設計prompt 的方法,但這種變換無法透過CoT 或ToT 自然地表達出來。
然後他們觀察到:如果將LLM 的推理過程建模成圖,那麼就能自然地實現這些以及其它許多思維變換。基於這一觀察,他們提出了思維圖(GoT/Graph of Thoughts),這種方法可以透過網路形式的推理來增強LLM 的能力。
在 GoT 中,一個 LLM 思維會被建模成一個頂點,頂點之間的依賴關係則建模為邊。使用 GoT,透過建構有多於一條輸入邊的頂點,可以將任意思維聚合起來。整體而言,GoT 使用的圖抽象方法可無縫地將 CoT 和 ToT 泛化到更複雜的思維模式,而這個過程無需更新模型。
然而,要實際實現 GoT,還需要解決一些設計上的挑戰。例如,對於不同的任務,最佳的圖結構是什麼樣的呢?為了最大化準確度和最小化成本,聚合思考的最佳方法是什麼?
為了解答這些問題以及更多其它問題,這些研究者設計了實現 GoT 的模組化架構。設計有兩大亮點。
一是可實現對各個思維的細粒度控制。這讓使用者可以完全控制與 LLM 進行的對話並使用先進的思維變換,例如將正在進行的推理中兩個最有希望的思維組合起來得到一個新的。
二是這種架構設計考慮了可擴展性 —— 可無縫地擴展用於新的思維變換、推理模式(即思維圖)和 LLM 模型。這讓使用者可使用 GoT 快速為 prompt 的新設計想法建立原型,同時實驗 GPT-3.5、GPT-4 或 Llama-2 等不同模型。
研究者也展現了 GoT 的一些用例(排序、摘要的關鍵字計數、集合運算、文件合併),他們也詳細說明瞭如何使用基於圖的範式來實現它們。他們透過實驗評估了 GoT,展現了相對於其它當前最佳方法的優勢。
研究者表示,整體而言,GoT 尤其適用於可自然分解成更小子任務的任務,並且這些子任務可以分開解決,然後融合成一個最終解答。在這方面,GoT 的表現優於其它方案,例如在排序任務上,GoT 分別優於 CoT 和 ToT 約 70% 和 62%,同時成本還比 ToT 低 31% 以上。
表 1 給出了 GoT 與其它 prompt 設計方案的定性比較。 GoT 是唯一能在一個 prompt 內實現任意基於圖的思維變換的方案(例如聚合),從而能將先前的所有方案囊括進來。

他們還有另一項貢獻,即提出一種新的評估指標 —— 思維容量(the volume of a thought),可用來評估 prompt 設計策略。研究者表示,使用此指標的目標是更好地理解 prompt 設計方案之間的差異。
對於一個給定的思維 v,v 的容量是指 LLM 思維的數量,使用者可以基於此使用有向邊得到 v。直觀上說,這些就是所有有望對 v 做出貢獻的 LLM 思維。
作者透過研究表明,透過整合聚合等思維變換技術,GoT 能讓思維容量比其它方案顯著更大。
GoT 框架
下面詳細介紹一下 GoT 框架。其示意圖見圖 1,圖中也給出了其它 prompt 設計策略的示意圖。

在數學形式上,GoT 可以建模為一個元組(G, T, E, R),其中G 是LLM 推理過程(即上下文中的所有LLM 思維及其關係),T 是可能的思維變換,E 是用於獲得思維分數的評估器函數,R 是用於選擇最相關思維的排序函數。
推理過程
這裡,推理過程被建模為一個有向圖G = (V, E),其中V 是一組頂點,E ⊆ V × V 是一組邊。 G 是有向的,因此邊是有序頂點對 E ⊆ V × V 的子集。一個頂點包含目前問題的一個解答,不管這個問題是最初的問題、還是中間問題或最後的問題。這種思維的具體形式取決於用例;其可能是一段文字(在寫作任務中),也可能是一個數值序列(在排序任務中)。有向邊 (t_1, t_2) 表示思維 t_2 的建構方式是將 t_1 用作「直接輸入」,即透過明確指示 LLM 使用 t_1 來產生 t_2。
在某些用例中,圖節點屬於不同類別。舉個例子,在寫作任務中,某些頂點建模寫出一段文本的計劃,其它節點則建模實際的文本段。在這種情況下,GoT 採用異構圖G = (V, E, c) 來建模LLM 推理,其中c 將頂點V 映射到各自的類別C(在上述案例中,C = {plan, par} )。這樣一來,任何頂點 v 都可以建模推理的不同面向。
於是 G 就與 LLM 推理過程關聯了起來。為了推進此過程,使用者可對 G 使用思維變換。舉個這種變換的例子:將目前為止分數最高的思維融合成一個新的。另一個例子是對一個思維進行循環,以對其增強。請注意,這些變換嚴格擴展了 CoT、CoT-SC 或 ToT 中可用轉換的集合。
思維變換
得益於將基於圖的模型用於推理,GoT 能實現全新的思維變換。研究者稱之為圖使能的變換(graph-enabled transformation)。例如,在寫作任務中可以將多篇輸入文章組合成一篇連貫一致的摘要。在排序時,可將多個已排序的數值子數組合併為一個最終已排序數組。圖 2 給出了聚合和生成的範例。

從數學形式上講,每個這樣的變換都可以建模成T (G, p_θ),其中G = (V, E) 是反映推理當前狀態的圖,p_θ 是所使用的LLM。 T 修改 G 的方式通常是透過增加新頂點及其傳入邊。於是有G′ = T (G, p_θ) = (V′, E′),其中V′ = (V ∪ {V^ }) \ {V^−} 且E′ = (E ∪ {E^ }) \ {E^−}。 V^ 和 E^ 是注入到 G 中的新頂點和邊,它們分別建模的是新的思維和它們的依賴關係。
為了最大化 GoT 的表達能力,使用者也可以刪除思維,做法是指定要刪除的對應頂點和邊(分別為 V^− 和 E^−)。在這裡,確保集合 V^ 、E^ 、V^− 和 E^− 有一致的變換是使用者的責任(舉個例子,使用者不會嘗試刪除不存在的頂點)。這使得 prompt 方案能無縫整合,其中使用者可以為了節省上下文中的空間而移除無法帶來提升的推理部分。
T 的具體形式及其影響 G 的方式取決於具體的變換。以下首先詳細介紹主要幾個圖使能的思考變換,然後會描述 GoT 何以囊括之前方案的變換。除非另有說明,V^− = E^− = ∅。
聚合變換:使用者可以使用 GoT 將任意思維聚合成新思維,實現取長補短。這裡看看只創造一個新頂點的基礎形式:V^ = {v^ } 且E^ = {(v_1, v^ ), ...,(v_k, v^ )},其中v_1, ..., v_k 是被融合的k 個思維。更一般而言,這能實現對推理路徑的聚合,即更長的思考鏈,而不只是單一思維。使用圖模型,可以輕鬆實現聚合變換:透過添加來自建模了幾條鏈中最後思維的頂點 v_1, ..., v_k 的傳出邊,使之指向組合這些鏈的單一思維 v^ 。
細化變換:另一個思考變換是透過修改內容對當前思考 v 進行細化:V^ = {} 和 E^ = {(v, v)}。圖中的這個循環表示與原始思維有同樣連結的迭代版思維。
產生變換:最後,使用者也可以基於現有的單一思維 v 產生一個或多個新思維。這一類別中包含 ToT 或 CoT-SC 等更早方案中的類似推理步驟。從數學形式上講,有

對思維進行評分和排名
對思維評分的目的是為了理解當前的解答是否夠好。分數被建模為一個一般函數 E (v, G, p_θ),其中 v 是所要評估的思維。為了盡可能讓 E 更普適通用,E 中也使用了推理的整個過程 (G),因為在某些評估場景中,分數可能與其它思考相關。
GoT 也能排名。研究者使用了函數 R (G, p_θ, h) 來建模,其中 h 指定了要被 R 返回的 G 中排名最高的思維的數量。雖然 R 的具體形式取決於用例,但最常使用簡單而有效的方法是傳回分數最高的 h 個思維,即 v_1, ..., v_h = R (G, p_θ, h)。
E 和 R 的具體形式取決於用例。
系統架構與擴充能力
GoT 由一組互動式模組構成,見圖 3(藍色部分)。這些模組是Prompter(準備用於LLM 的訊息)、Parser(解析器,提取LLM 答案中的信息)、評分模組(驗證LLM 答案並評分)、Controller(控制器,協調整個推理過程,並決定如何推進推理)。 Controller 中包含另外兩個重要元件:操作圖(GoO)和圖推理狀態(GRS)。 GoO 是一個靜態結構,其指定了對給定任務的圖分解,即它規定了應用於 LLM 思維的變換及其順序和依賴關係。 GRS 是一個動態結構,其維持著正在進行的 LLM 推理過程的狀態(其思維及其狀態的歷史)。

用例範例
研究者描述一些GoT 的一些用例,包括排序、集合運算、關鍵字計數、文件合併;下圖4 便是GoT 的排序用例中一個圖分解範例。這裡我們不對用例做詳細介紹,詳情請參考原論文。


延遲與容量的權衡
延遲(在思維圖中抵達給定最終思維的跳數)和容量之間的權衡也非常重要,研究者表明:GoT 在這一權衡上也優於先前的prompt 設計方案。這篇論文定義了一個新指標 —— 思維容量,即可以影響給定思維 t 的先前 LLM 思維的數量。從數學上看,思考 t 的容量就是在思考圖中,與 t 之間存在路徑的思考的數量。研究者假設輸出單一思維的成本為 O (1),並將每個提示方案的總成本固定為 Θ(n)。
各種方案的架構如下。 CoT-SC 由源自單一起始思維的 k 個獨立鏈所構成。 ToT 是一條完全 k 叉樹。而在 GoT 中,會在其葉節點處加入一個完全 k 叉樹,並帶有一個「鏡像」k 叉樹 —— 其大小一樣而邊是反向的。
詳細分析見表 2。 CoT 的容量較大,最大可至 N,但也有 N 的高延遲成本。 CoT-SC 將延遲降低了 k 倍(對應於其分支因子),但同時其容量也會減少 k 倍。 ToT 的延遲為 log_k N,但容量也很低。 GoT 是唯一能做到低延遲 log_k N 和高容量 N 的方案。 GoT 之所以能做到這一點,是因為其利用了思維聚合,使其可從圖分解中任何其它中間思維得到最終思維。

評估
研究者透過實驗展現了 GoT 相對於其它方案的優勢。其中重點比較的是 GoT 和 ToT,因為 ToT 的表現已經優於它方案了。當然,他們也還是用 IO、CoT 和 CoT-SC 做了一些實驗。
圖 5(排序)、6(集合交集)、7(關鍵字計數)、8(文件合併)展示了實驗結果。




#整體而言,在實驗評估過在的所有基準上,GoT 的輸出品質都優於ToT,並且也實現了更低的推理成本。
以上是思維鏈CoT進化成思考圖GoT,比思考樹更優秀的提示工程技術誕生了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
