目錄
利用二元獎勵機制實現反思
首頁 科技週邊 人工智慧 GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

Apr 04, 2023 pm 12:45 PM
論文 mit

這是美國東北大學聯合MIT發表的最新論文中的方法:Reflexion。

本文經AI新媒體量子位元(公眾號ID:QbitAI)授權轉載,轉載請聯絡來源。

GPT-4再度進化!

加上簡單方法,就能讓GPT-4這類大語言模型學會自我反思,表現直接提升30%

在此之前,大語言模型回答出錯,經常是二話不說,直接先道歉,然後emmmmmm,繼續亂猜。

現在,它不會這樣了,有了新方法的加成,GPT-4不僅會反思自己哪裡錯了,還會給出改進策略。

比如說它會自動分析為什麼「陷入循環」:

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

#或說反思自己有缺陷的搜尋策略:

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

#這是美國東北大學聯合MIT發表的最新論文中的方法:Reflexion

不僅適用於GPT-4,也適用於其他大語言模型,讓它們學會人類特有的反思能力。

目前論文已經發表在預印平台arxiv。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

這把直接讓網友直呼「AI進化的速度已經超過我們適應的能力了,我們要被毀滅了。」

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

甚至有網友為開發人員發來「飯碗警告」:

用這種方法寫程式碼的時薪是比一般開發人員便宜的。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

利用二元獎勵機制實現反思

正如網友所言,Reflexion賦予GPT-4的反思能力和人類的思考過程差不多:

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

可以簡單地用兩個字來概括:回饋

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

在這個回饋過程中,又可以分成三大步:

  • 1、評估:測試目前產生答案的準確度
  • 2、自我反省的產生:錯誤辨識-實現修正
  • 3、執行一個迭代回饋循環

在第一步評估的過程中,首先要經歷的是LLM(大語言模型)的自我評估

也就是說LLM在還沒有外在回饋時,首先要自己對答案進行反思。

那如何進行自我反思?

研究團隊使用了一個二元獎勵機制,為LLM在目前狀態下執行的操作賦值:

1代表產生的結果OK,0則表示產生的結果不太行。

而之所以採用二元而非多值或連續輸出這類更具描述性的獎勵機制,原因和沒有外部輸入有關。

要在沒有外在回饋的條件下進行自我反思,必須將答案限制在二元狀態下,只有這樣,才能迫使LLM做出有意義的推論。

在自我評估結束之後,若二元獎勵機制輸出為1,則不啟動自我反思裝置,若為0,LLM則會開啟反思模式。

在反思的過程中,模型會觸發一個啟發性函數h(如下),類比人類思考過程,h起到的作用就像是監督一樣。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

不過,與人類思考一樣,LLM在反思的過程中同樣也有局限性,這在函數中的Ω和ε中就能體現。

Ω表示重複連續動作的次數,一般會將這個數值設為3,這表示反思過程中若重複一個步驟三次,會直接跳到下一個步驟。

而ε則表示在反思的過程中允許執行的最大操作數量。

既然有監督,那修正也必須執行,修正過程的函數是這樣子的:

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

##其中,自我反思模型是透過「特定領域的

失敗軌跡和理想反射對」訓練而來的,並不允許存取資料集中給定問題的特定領域的解決方案。

這樣一來,LLM在反思的過程中便能夠迸發出更多有「創新性」的東西。

反思之後表現提升近30%

既然GPT-4這類LLM都能夠進行自我反思了,那具體效果究竟如何?

研究團隊在ALFWorld和HotpotQA基準上對這種方法進行了評估。

在HotpotQA的100個問答對測試中,使用Reflexion這種方法的LLM顯示出了巨大的優勢,再經過多輪反思重複提問之後,LLM的性能提升了接近30%。

而沒有使用Reflexion,重複問答之後,效能沒有任何變化。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

在HotpotQA的134個問答對測驗中,可以看出在Reflexion的加持下,LLM經過多輪反思後,準確率一度達到97%。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

在另外一篇部落格中,團隊成員也曬出了他們這種方法在GPT-4上的效果,測試範圍是編寫程式碼。

結果也顯而易見,用了Reflexion,GPT-4的程式設計能力直接提升了21%。

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

關於GPT-4已經會「思考」了,你怎(huang)麼(le)看(ma)?

論文網址:https://arxiv.org/abs/2303.11366

GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣

以上是GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1246
24
Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

ICCV'23論文頒獎「神仙打架」! Meta分割一切和ControlNet共同入選,還有一篇讓評審很驚訝 ICCV'23論文頒獎「神仙打架」! Meta分割一切和ControlNet共同入選,還有一篇讓評審很驚訝 Oct 04, 2023 pm 08:37 PM

在法國巴黎舉行的電腦視覺頂峰大會ICCV2023剛結束!今年的最佳論文獎,簡直是「神仙打架」。例如,兩篇獲得最佳論文獎的論文中,就包括顛覆文生圖AI領域的著作-ControlNet。自從開源以來,ControlNet已經在GitHub上獲得了24k個星星。無論是對於擴散模型還是整個電腦視覺領域來說,這篇論文的獲獎都是實至名歸的而最佳論文獎榮譽提名,則頒給了另一篇同樣出名的論文,Meta的「分割一切”模型SAM。自推出以來,“分割一切”已經成為了各種圖像分割AI模型的“標竿”,包括後來居上的

論文插圖也能自動生成了,用到了擴散模型,還被ICLR接收 論文插圖也能自動生成了,用到了擴散模型,還被ICLR接收 Jun 27, 2023 pm 05:46 PM

生成式AI已經風靡了人工智慧社區,無論是個人還是企業,都開始熱衷於創建相關的模態轉換應用,例如文生圖、文生影片、文生音樂等等。最近呢,來自ServiceNowResearch、LIVIA等科研機構的幾位研究者嘗試以文字描述來產生論文中的圖表。為此,他們提出了一種FigGen的新方法,相關論文也被ICLR2023收錄為了TinyPaper。圖片論文網址:https://arxiv.org/pdf/2306.00800.pdf也許有人會問了,產生論文中的圖表有什麼難的呢?這樣做對科學研究又有哪些幫助呢

聊天截圖曝出AI頂會審稿潛規則! AAAI 3000塊即可strong accept? 聊天截圖曝出AI頂會審稿潛規則! AAAI 3000塊即可strong accept? Apr 12, 2023 am 08:34 AM

正值AAAI 2023論文截止提交之際,知乎上突然出現了一張AI投稿群的匿名聊天截圖。其中有人聲稱,自己可以提供「3000塊一個strong accept」的服務。爆料一出,頓時引起了網友的公憤。不過,先不要急。知乎大佬「微調」表示,這大機率只是「口嗨」而已。根據「微調」透露,打招呼和團體犯案這個是任何領域都不能避免的問題。隨著openreview的興起,cmt的各種缺點也越來越清楚,未來留給小圈子操作的空間會變小,但永遠會有空間。因為這是個人的問題,不是投稿系統和機制的問題。引入open r

華人團隊斬獲最佳論文、最佳系統論文獎項,CoRL研究成果獲獎公佈 華人團隊斬獲最佳論文、最佳系統論文獎項,CoRL研究成果獲獎公佈 Nov 10, 2023 pm 02:21 PM

自2017年首次舉辦以來,CoRL已成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。 CoRL是機器人學習研究的單一主題會議,涵蓋了機器人學、機器學習和控制等多個主題,包括理論與應用2023年的CoRL大會將於11月6日至9日在美國亞特蘭大舉行。根據官方數據透露,今年有來自25個國家的199篇論文入選CoRL。熱門主題包括操作、強化學習等。雖然相較於AAAI、CVPR等大型AI學術會議,CoRL的規模較小,但隨著今年大模型、具身智能、人形機器人等概念的熱度上升,值得關注的相關研究也會

NeRF與自動駕駛的前世今生,近10篇論文總結! NeRF與自動駕駛的前世今生,近10篇論文總結! Nov 14, 2023 pm 03:09 PM

神經輻射場(NeuralRadianceFields)自2020年被提出以來,相關論文數量呈指數增長,不僅成為了三維重建的重要分支方向,也逐漸作為自動駕駛重要工具活躍在研究前沿。 NeRF這兩年異軍突起,主要因為它跳過了傳統CV重建pipeline的特徵點提取和匹配、對極幾何與三角化、PnP加BundleAdjustment等步驟,甚至跳過mesh的重建、貼圖和光追,直接從2D輸入影像學習一個輻射場,然後從輻射場輸出逼近真實照片的渲染影像。也就是說,讓一個基於神經網路的隱式三維模型,去擬合指定視角

CVPR 2023放榜,錄取率25.78%! 2360篇論文被接收,提交量暴漲至9155篇 CVPR 2023放榜,錄取率25.78%! 2360篇論文被接收,提交量暴漲至9155篇 Apr 13, 2023 am 09:37 AM

剛剛,CVPR 2023發文表示:今年,我們收到了創紀錄的9155份論文(比CVPR2022增加了12%),並錄用了2360篇論文,接收率為25.78%。根據統計,CVPR的投稿量在2010-2016的7年間僅從1724增加到2145。在2017年後則迅速飆升,進入快速增長期,2019年首度突破5000,至2022年投稿數已達8,161份。可以看到,今年提交了共9155份論文確實創下了最高紀錄。疫情放開後,今年的CVPR頂將在加拿大舉行。今年採用單軌會議的形式,並取消了傳統Oral的評選。谷歌研究

交大校友獲最佳論文,機器人頂會CoRL 2022獎公佈 交大校友獲最佳論文,機器人頂會CoRL 2022獎公佈 Apr 11, 2023 pm 11:43 PM

自 2017 年首次舉辦以來,CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。 CoRL 是機器人學習研究的 single-track 會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。 2022年的CoRL大會於12月14日至18日於紐西蘭奧克蘭舉行。本屆大會共收到504篇投稿,最終接收34篇Oral論文、163篇Poster論文,接收率為39%。目前,CoRL 2022 公佈了最佳論文獎、最佳系統論文獎、特別創新獎等完整獎項。賓州大學GRASP實驗

See all articles