目錄
「點點」的威力
網友震驚
Think dot by dot
模型并没有推理
限制
首頁 科技週邊 人工智慧 思維鏈不存在了?紐約大學最新研究:推理步驟可省略

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

Jun 02, 2024 pm 03:21 PM
科技 模型

紅極一時的思維鏈技術,可能要被推翻了!

還在驚訝於大模型居然能夠利用思維鏈分步驟思考?

還在苦於不會寫思考鏈提示詞?

來自紐約大學的研究人員表示:「沒關係的,都一樣」,

推理步驟不重要,不想寫提示詞也可以不寫,用省略號代替就好了。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

論文網址:https://arxiv.org/pdf/2404.15758

這篇文章的標題甚至直接用“Let's think dot by dot”,來對標思維鏈的“Let's think step by step”,展現了“省略號”的威力。

「點點」的威力

#研究人員發現,把思維鏈(Chain-of-Thought,CoT)推理中的具體步驟,替換成毫無意義的「...」,產生的推理結果也大差不差。

例如下面這個例子:讓模型數一下前6個數裡面有幾個大於5。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

如果直接拋出問題讓模型回答,結果會比較逆天:6個數數出來7個。

相較之下,使用思維鏈提示,模型會一步步比較大小,最後得到正確答案:「25,15 ,25,that's 3 digits」。

但更逆天的是本文使用的「玄學」方法:步驟不用寫了,只需要輸出同樣數量的「點」(dot),居然也不影響最後的結果。

——這並不是巧合,大量實驗證明了,後面兩種方法的表現接近。

也就是說,我們以為的模型效能提升是來自於「think step by step」,但實際上可能只是因為LLM拿到了更多個token的算力!

你以為模型在思考,但其實是在烤肉。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

——愚蠢的人類啊,居然妄圖用幼稚的例子教我如何推理,你可知我要的從來都只是計算。

「思考鏈從來就沒有存在過,將來也不會存在」(狗頭)。

文章的作者Jacob Pfau表示,這篇工作證明了,模型並不是受益於思維鏈帶來的語言推理,使用重複的「...」填充token可以達到跟CoT同樣的效果。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

當然,這也引發了對齊問題:因為這個事實表明,模型可以進行CoT中不可見的隱藏推理,在一定程度上脫離了人類的控制。

網友震驚

文章的結論可以說是顛覆了我們長久以來的認知,有網友表示:學到了mask的精髓。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

「這究竟意味著什麼:模型可以在我們不知情的情況下使用這些token獨立思考。」

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

#################### ###############有網友表示,怪不得我打字總是喜歡用「...」##############

还有网友直接开始实战测试:

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

虽然咱也不知道他的理解对不对~

不过也有网友认为LLM在思维链中进行隐藏推理是没有根据的,毕竟大模型的输出从原理上来说是基于概率的,而不是通过有意识的思考。

CoT提示只是将统计模式的一个子集显式化,模型通过生成与模式一致的文本来模拟推理,但它们不具备验证或反思其输出的能力。

Think dot by dot

面对复杂问题,我们人类在潜意识里会进行分步骤的推理。

由此启发,谷歌的研究人员在2022年发表了大名鼎鼎的Chain-of-Thought。

要求语言模型分步解决问题的方法,使模型能够解决以前似乎无法解决的问题,显著提高了LLM的性能,或者说挖掘出了LLM的潜力。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

论文地址:https://arxiv.org/pdf/2201.11903

虽然一开始大家也不知道这玩意为啥能work,但是因为确实好用,便很快被广泛传播。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

随着大模型和提示词工程的起飞,CoT成了LLM解决复杂问题的一大利器。

当然了,在这个过程中也有很多研究团队在探索CoT的工作原理。

模型并没有推理

思维链带来的性能提升,究竟是模型真的学会了分步骤解决问题,还是仅仅因为更长的token数所带来的额外计算量?

既然不确定逻辑推理起不起作用,那就干脆不要逻辑,把推理步骤都换成一定没用的「...」,这里称为填充(filler)tokens。

研究人员使用了一个「小羊驼」模型:具有4层、384个隐藏维度和6个注意力头的34M参数Llama,模型参数随机初始化。

这里考虑两个问题:

(1)哪些类型的评估数据可以从填充token中受益

(2)需要什么样的训练数据来教模型使用填充token

对此,研究人员设计了2个任务并构建了相应的合成数据集,每个数据集都突出了一个不同的条件,在该条件下,填充token能够为Transformer提供性能改进。

3SUM

先看第一个比较难的任务:3SUM。要求模型在序列中挑选满足条件的3个数,比如3个数的和除以10余数为0。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

在最坏的情况下,这个任务的复杂度是N的3次方,而Transformer层与层之间的计算复杂度是N的二次方,

所以,当输入序列长度很大的时候,3SUM问题自然会超出Transformer的表达能力。

实验设置了三组对照:

1. 填充token:序列使用重复的「. . .」作为中间填充,例如「A05

B75 C22 D13 : . . . . . . . . . . . . ANS True」。

每个点代表一个单独的token,与下面的思维链中的token一一对应。

2. 可并行化的CoT解决方案,序列的形式为:「A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True」。

思維鏈透過編寫所有相關的中間求和,將3SUM問題簡化為一系列2SUM問題(如下圖所示)。這種方法將問題的計算量降低到了N的2次方-Transformer可以搞定,而且可以並行。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

3. 自適應CoT解決方案,序列的形式為:「A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True」。

與上面方案中,將3SUM巧妙地分解為可並行化的子問題不同,這裡希望使用啟發式方法來產生靈活的思維鏈,以模仿人類的推理。這種實例自適應計算,與填充token計算的平行結構不相容。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

從上圖的結果可以看出,不輸出填充token的情況下,模型的準確率總體上隨著序列變長而下降,而使用填充token時,準確率一直保持在100%。

2SUM-Transform

#第二個任務是2SUM-Transform,只需要判斷兩個數字的和是否符合要求,計算量在Transformer的掌控之中。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

不過為了防止模型「作弊」,對輸入token就地計算,這裡將輸入的每個數字移動一個隨機偏移量。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

結果如上表所示:filler token方法的精確度達到了93.6%,非常接近Chain-of-Thought,而不使用中間填充的情況下,精度只有78.7%。

但是,這種改進是否只是由於訓練資料呈現的差異,例如透過正規化損失梯度?

為了驗證填充token是否帶來了與最終預測相關的隱藏計算,研究人員凍結了模型權重,僅微調最後一層注意力層。

思維鏈不存在了?紐約大學最新研究:推理步驟可省略

上面的結果表明,隨著可用的填充token增多,模型的準確性也不斷提高,這表明填充token確實正在執行與3SUM預測任務相關的隱藏計算。

限制

雖然填充token的方法很玄學、很神奇,甚至還很有效,但要說思維鏈被幹翻了還為時過早。

作者也表示,填入token的方法並沒有突破Transformer的計算複雜度上限。

而且學習利用填充token是需要特定訓練過程的,例如文中採用密集監督才能使模型最終收斂。

不過,有些問題可能已經浮出水面,像是隱藏的安全問題,例如提示字工程會不會突然有一天就不存在了?

以上是思維鏈不存在了?紐約大學最新研究:推理步驟可省略的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

See all articles