GPT-4的人類化推理能力大幅提升!中科院提出「思維傳播」,類比思考超越CoT,即時應用
如今,GPT-4、PaLM等巨型神經網路模型橫空出世,已經展現出驚人的少樣本學習能力。
只要給出簡單提示,它們就能進行文字推理、寫故事、回答問題、程式設計......
中國科學院和耶魯大學的研究人員提出了一種新的框架,名為「思維傳播」(Thought Propagation),旨在透過「類比思維」來增強LLM的推理能力
論文地址:https://arxiv.org/abs/2310.03965
「思考傳播」靈感來自人類認知,即當當遇到一個新問題時,我們經常將其與我們已經解決的類似問題進行比較,以推導出策略。
因此,這種方法的關鍵是在解決輸入問題之前,探索與輸入相關的「類似」問題
最後,它們的解決方案可以拿來即用,或提取有用計劃的見解。
可以預見的是,「思維傳播」在為LLM邏輯能力的固有限制所提出的全新思路,讓大模型像人類一樣用「類比」方法解決難題。
LLM多步驟推理,敗給人類
#顯而易見,LLM擅長根據提示進行基本推理,但在處理複雜的多步驟問題時仍有困難,例如優化、規劃。
反觀人類,他們會汲取類似經驗中的直覺來解決新問題。
大型模型無法實現這一點,是由於其固有的限制所決定的
因為LLM的知識完全來自於訓練資料中的模式,無法真正理解語言或概念。因此,作為統計模型,它們很難進行複雜的組合泛化。
LLM缺乏系統推理能力,無法像人類一樣逐步推理,從而解決具有挑戰性的問題,這是最最重要的
此外,由於大模型的推理是局部的和短視的,因此LLM很難找到最佳解決方案,並且在長時間範圍內難以保持推理的一致性
總結起來,大模型在數學證明、策略規劃和邏輯推理方面存在的問題主要可以歸結為兩個核心因素:
- 無法重複使用先前經驗中的見解。
人類從實踐中累積了可重複使用的知識和直覺,有助於解決新問題。相較之下,LLM在處理每個問題時都是 “從0開始”,不會借鏡先前的解決方案。
多步驟推理中的複合錯誤指的是進行多步驟推理過程中出現的錯誤
#人類會監控自己的推理鏈,並在必要時修改最初的步驟。然而,LLM在推理的早期階段所犯的錯誤會被放大,因為它們會將後續的推理引向錯誤的方向
以上這些弱點,嚴重阻礙了LLM應對需要全局最優或長期規劃的複雜挑戰中的應用。
研究人員針對這個問題提出了一種全新的解決方法,即思維傳播
TP框架
透過類比思維,讓LLM能夠像人類一樣進行推理
在研究者看來,從0開始推理無法重複使用解決類似問題的見解,而且會在中間推理階段出現錯誤累積。
而「思維傳播」可以探索與輸入問題相關的類似問題,並從類似問題的解決方案中獲得啟發。
下圖展示了「思維傳播」(TP)與其他代表性技術的比較。對於輸入問題p,IO、CoT和ToT都需要從頭開始推理,才能得出解決方案s
#具體來說,TP包括了三個階段:
1. 提出類似問題:LLM透過提示產生一組與輸入問題有相似之處的類似問題。這將引導模型檢索潛在的相關先前經驗。
2. 解決類似問題:透過現有的提示技術,如CoT,讓LLM解決每個類似的問題。
3. 匯總解決方案:#有2種不同的途徑-根據類比解決方案,直接推斷輸入問題的新解決方案;透過比較輸入問題的類比解決方案,推導出高階計劃或策略。
透過這種方式,大型模型可以利用先前的經驗和啟發式方法,並且可以將其初始推理與類比解決方案進行交叉檢查,以進一步完善這些解決方案
值得一提的是,「思維傳播」與模型無關,可以在任何提示方法的基礎上進行單一問題解決步驟
這個方法的獨特之處在於激發LLM類比思維,從而引導複雜的推理過程
「思維傳播」究竟能讓LLM多像人類,還得實操結果來說話。
中國科學院和耶魯的研究人員在3個任務中進行了評估:
##- 最短路徑推理:需要在圖中找到節點之間的最佳路徑需要全域規劃和搜尋。即使在簡單的圖上,標準技術也會失敗。
- 創意寫作:產生連貫、有創意的故事是一個開放式的挑戰。當給予高層次的大綱提示時,LLM通常會失去一致性或邏輯性。
- LLM智能體規劃:與文字環境互動的LLM智能體與長期策略面向舉步維艱。它們的計劃經常會出現“漂移”或陷入循環。
最短路徑推理
在最短路徑推理任務中,現有的方法遇到了無法解決的問題
#儘管(a)中的圖形非常簡單,但由於推理從0開始,這些方法只能讓LLM找到次優解(b,c),甚至重複存取中間節點(d)
以下是結合了TP和ToT所使用的範例
由於中間推理步驟的錯誤累積,ToT (b) 無法解決(a) 中的問題。基於類似問題的解決方案,TP (c) 完善了最初的次優解決方案,並最終找到了最優解決方案。
透過與基準比較,TP在處理最短路徑任務中的表現顯著提升了12%, 產生了最優且有效的最短路徑。
此外,由於線上重寫(OLR)的最低值,與基準線相比,產生的有效路徑(TP)最接近最優路徑
#此外,研究人員也對TP層數對最短路徑任務的複雜性和性能進行了進一步研究
在不同設定下,1層TP的token成本與ToT類似。但是,1層TP在尋找最優最短路徑方面,已經取得了非常有競爭力的效能。
此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。
创意写作
下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。
LLM智能体规划
在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。
TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。
根据上述实验结果表明,「思维传播」可以应用于各种不同的推理任务,并且在所有这些任务中表现出色
增强LLM推理的关键
「思维传播」模型为复杂的LLM推理提供了一种全新的技术。
类比思维是人类解决问题能力的标志,它可以带来一系列系统性的优势,比如更高效的搜索和错误纠正
在类似的情况下,LLM也可以通过提示类比思维来更好地克服自身的弱点,比如缺乏可重用的知识和级联的局部错误等
然而,这些研究结果有一些限制
生成有用的类比问题并保持推理路径的简洁并不容易。此外,更长的链式类比推理路径可能会变得冗长而难以理解。同时,控制和协调多步推理链也是一个相当困难的任务
不过,「思维传播」还是通过创造性地解决LLM的推理缺陷,为我们提供了一个有趣的方法。
随着进一步的发展,类比思维可能会使LLM的推理能力变得更加强大。这也为在大型语言模型中实现更接近人类推理的目标指明了方向
作者介绍
Ran He(赫然)
他是中国科学院自动化研究所模式识别国家实验室和中国科学院大学的教授,同时也是IAPR Fellow和IEEE高级会员
他之前在大连理工大学获得了学士和硕士学位,并于2009年在中国科学院自动化研究所获得了博士学位
他的研究方向是生物识别算法(人脸识别与合成、虹膜识别、人物再识别)、表征学习(使用弱/自监督或迁移学习预训练网络)、生成学习(生成模型、图像生成、图像翻译)。
他在国际期刊和会议上发表了200多篇论文,其中包括IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT等知名国际期刊,以及CVPR、ICCV、ECCV、NeurIPS等顶级国际会议
他是IEEE TIP、IEEE TBIOM和Pattern Recognition编委会成员,还曾担任CVPR、ECCV、NeurIPS、ICML、ICPR和IJCAI等国际会议的区域主席
Junchi Yu(俞俊驰)
俞俊馳是中國科學院自動化研究所的博士四年級學生,他的導師是赫然教授
他之前在騰訊人工智慧實驗室實習過,與Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授一起工作過。現在,他是耶魯大學電腦科學系的交流生,師從Rex Ying教授
他的目標是研發一種具有良好可解釋性和可移植性的可信圖學習(TwGL)方法,並探索其在生物化學領域的應用
#以上是GPT-4的人類化推理能力大幅提升!中科院提出「思維傳播」,類比思考超越CoT,即時應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
