GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣
這是美國東北大學聯合MIT發表的最新論文中的方法:Reflexion。
本文經AI新媒體量子位元(公眾號ID:QbitAI)授權轉載,轉載請聯絡來源。
GPT-4再度進化!
加上簡單方法,就能讓GPT-4這類大語言模型學會自我反思,表現直接提升30%。
在此之前,大語言模型回答出錯,經常是二話不說,直接先道歉,然後emmmmmm,繼續亂猜。
現在,它不會這樣了,有了新方法的加成,GPT-4不僅會反思自己哪裡錯了,還會給出改進策略。
比如說它會自動分析為什麼「陷入循環」:
#或說反思自己有缺陷的搜尋策略:
#這是美國東北大學聯合MIT發表的最新論文中的方法:Reflexion。
不僅適用於GPT-4,也適用於其他大語言模型,讓它們學會人類特有的反思能力。
目前論文已經發表在預印平台arxiv。
這把直接讓網友直呼「AI進化的速度已經超過我們適應的能力了,我們要被毀滅了。」
甚至有網友為開發人員發來「飯碗警告」:
用這種方法寫程式碼的時薪是比一般開發人員便宜的。
利用二元獎勵機制實現反思
正如網友所言,Reflexion賦予GPT-4的反思能力和人類的思考過程差不多:
可以簡單地用兩個字來概括:回饋。
在這個回饋過程中,又可以分成三大步:
- 1、評估:測試目前產生答案的準確度
- 2、自我反省的產生:錯誤辨識-實現修正
- 3、執行一個迭代回饋循環
在第一步評估的過程中,首先要經歷的是LLM(大語言模型)的自我評估。
也就是說LLM在還沒有外在回饋時,首先要自己對答案進行反思。
那如何進行自我反思?
研究團隊使用了一個二元獎勵機制,為LLM在目前狀態下執行的操作賦值:
1代表產生的結果OK,0則表示產生的結果不太行。
而之所以採用二元而非多值或連續輸出這類更具描述性的獎勵機制,原因和沒有外部輸入有關。
要在沒有外在回饋的條件下進行自我反思,必須將答案限制在二元狀態下,只有這樣,才能迫使LLM做出有意義的推論。
在自我評估結束之後,若二元獎勵機制輸出為1,則不啟動自我反思裝置,若為0,LLM則會開啟反思模式。
在反思的過程中,模型會觸發一個啟發性函數h(如下),類比人類思考過程,h起到的作用就像是監督一樣。
不過,與人類思考一樣,LLM在反思的過程中同樣也有局限性,這在函數中的Ω和ε中就能體現。
Ω表示重複連續動作的次數,一般會將這個數值設為3,這表示反思過程中若重複一個步驟三次,會直接跳到下一個步驟。
而ε則表示在反思的過程中允許執行的最大操作數量。
既然有監督,那修正也必須執行,修正過程的函數是這樣子的:
失敗軌跡和理想反射對」訓練而來的,並不允許存取資料集中給定問題的特定領域的解決方案。
這樣一來,LLM在反思的過程中便能夠迸發出更多有「創新性」的東西。 反思之後表現提升近30%既然GPT-4這類LLM都能夠進行自我反思了,那具體效果究竟如何? 研究團隊在ALFWorld和HotpotQA基準上對這種方法進行了評估。 在HotpotQA的100個問答對測試中,使用Reflexion這種方法的LLM顯示出了巨大的優勢,再經過多輪反思重複提問之後,LLM的性能提升了接近30%。 而沒有使用Reflexion,重複問答之後,效能沒有任何變化。以上是GPT-4寫程式碼能力提升21%! MIT新方法讓LLM學會反思,網友:和人類的思考方式一樣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

在法國巴黎舉行的電腦視覺頂峰大會ICCV2023剛結束!今年的最佳論文獎,簡直是「神仙打架」。例如,兩篇獲得最佳論文獎的論文中,就包括顛覆文生圖AI領域的著作-ControlNet。自從開源以來,ControlNet已經在GitHub上獲得了24k個星星。無論是對於擴散模型還是整個電腦視覺領域來說,這篇論文的獲獎都是實至名歸的而最佳論文獎榮譽提名,則頒給了另一篇同樣出名的論文,Meta的「分割一切”模型SAM。自推出以來,“分割一切”已經成為了各種圖像分割AI模型的“標竿”,包括後來居上的

生成式AI已經風靡了人工智慧社區,無論是個人還是企業,都開始熱衷於創建相關的模態轉換應用,例如文生圖、文生影片、文生音樂等等。最近呢,來自ServiceNowResearch、LIVIA等科研機構的幾位研究者嘗試以文字描述來產生論文中的圖表。為此,他們提出了一種FigGen的新方法,相關論文也被ICLR2023收錄為了TinyPaper。圖片論文網址:https://arxiv.org/pdf/2306.00800.pdf也許有人會問了,產生論文中的圖表有什麼難的呢?這樣做對科學研究又有哪些幫助呢

正值AAAI 2023論文截止提交之際,知乎上突然出現了一張AI投稿群的匿名聊天截圖。其中有人聲稱,自己可以提供「3000塊一個strong accept」的服務。爆料一出,頓時引起了網友的公憤。不過,先不要急。知乎大佬「微調」表示,這大機率只是「口嗨」而已。根據「微調」透露,打招呼和團體犯案這個是任何領域都不能避免的問題。隨著openreview的興起,cmt的各種缺點也越來越清楚,未來留給小圈子操作的空間會變小,但永遠會有空間。因為這是個人的問題,不是投稿系統和機制的問題。引入open r

自2017年首次舉辦以來,CoRL已成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。 CoRL是機器人學習研究的單一主題會議,涵蓋了機器人學、機器學習和控制等多個主題,包括理論與應用2023年的CoRL大會將於11月6日至9日在美國亞特蘭大舉行。根據官方數據透露,今年有來自25個國家的199篇論文入選CoRL。熱門主題包括操作、強化學習等。雖然相較於AAAI、CVPR等大型AI學術會議,CoRL的規模較小,但隨著今年大模型、具身智能、人形機器人等概念的熱度上升,值得關注的相關研究也會

神經輻射場(NeuralRadianceFields)自2020年被提出以來,相關論文數量呈指數增長,不僅成為了三維重建的重要分支方向,也逐漸作為自動駕駛重要工具活躍在研究前沿。 NeRF這兩年異軍突起,主要因為它跳過了傳統CV重建pipeline的特徵點提取和匹配、對極幾何與三角化、PnP加BundleAdjustment等步驟,甚至跳過mesh的重建、貼圖和光追,直接從2D輸入影像學習一個輻射場,然後從輻射場輸出逼近真實照片的渲染影像。也就是說,讓一個基於神經網路的隱式三維模型,去擬合指定視角

剛剛,CVPR 2023發文表示:今年,我們收到了創紀錄的9155份論文(比CVPR2022增加了12%),並錄用了2360篇論文,接收率為25.78%。根據統計,CVPR的投稿量在2010-2016的7年間僅從1724增加到2145。在2017年後則迅速飆升,進入快速增長期,2019年首度突破5000,至2022年投稿數已達8,161份。可以看到,今年提交了共9155份論文確實創下了最高紀錄。疫情放開後,今年的CVPR頂將在加拿大舉行。今年採用單軌會議的形式,並取消了傳統Oral的評選。谷歌研究

自 2017 年首次舉辦以來,CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。 CoRL 是機器人學習研究的 single-track 會議,涵蓋機器人學、機器學習和控制等多個主題,包括理論與應用。 2022年的CoRL大會於12月14日至18日於紐西蘭奧克蘭舉行。本屆大會共收到504篇投稿,最終接收34篇Oral論文、163篇Poster論文,接收率為39%。目前,CoRL 2022 公佈了最佳論文獎、最佳系統論文獎、特別創新獎等完整獎項。賓州大學GRASP實驗
