目錄
SPIN有效提升基準效能
首頁 科技週邊 人工智慧 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

Feb 03, 2024 am 08:00 AM
gpt-4 llm ucla

合成資料已經成為了大語言模型演化之路上最重要的一塊基石了。

去年底,有網友曝出前OpenAI首席科學家Ilya多次表示LLM的發展沒有資料瓶頸,合成資料可以解決大部分問題。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

英偉達資深科學家Jim Fan在研究了最新一批論文後得出結論,他認為將合成數據與傳統遊戲和影像生成技術結合,可以讓LLM實現巨大的自我進化。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

而正式提出這個方法的論文,是由來自UCLA的華人團隊。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

論文網址:https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

他們使用自我對弈機制(SPIN)產生合成數據,並透過自我微調的方法,不依賴新的數據集,將表現較弱的LLM在Open LLM Leaderboard Benchmark上的平均分數從58.14提升至63.16。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

研究人員提出了一種名為SPIN的自我微調的方法,透過自我對弈的方式-LLM與其前一輪迭代版本進行對抗,從而逐步提升語言模型的效能。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

圖片

這樣就不需要額外的人類標註資料或更高階語言模型的回饋,也能完成模型的自我進化。

主模型和對手模型的參數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為:UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

#自我對弈的訓練方式,總結起來思路大概是這樣:

透過訓練主模型來區分對手模型產生的反應和人類目標反應,對手模型是輪迭代獲得的語言模型,目標是產生盡可能難以區分的響應。

假設第t輪迭代得到的語言模型參數為θt,則在第t 1輪迭代中,使用θt作為對手玩家,針對監督微調資料集中每個prompt x,使用θt產生響應y'。

然後優化新語言模型參數θt 1,使其可以區分y'和監督微調資料集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分佈。

這裡,主模型的損失函數採用對數損失,考慮y和y'的函數值差。

對手模型加入KL散度正規化,防止模型參數偏離太多。

具體的對抗賽局訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的反應分佈等於目標反應分佈時,最佳化過程收斂。

如果使用對弈之後產生的合成資料進行訓練,再使用SPIN進行自我微調,能有效提升LLM的效能。 UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

圖片

###但之後在初始的微調資料上再次簡單地微調卻又會導致效能下降。 ######

而SPIN只需要初始模型本身和現有的微調資料集,就能讓LLM透過SPIN獲得自我提升。

特別是,SPIN甚至超越了透過DPO使用額外的GPT-4偏好資料訓練的模型。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

而且實驗也表明,迭代訓練比更多epoch的訓練能更有效地提升模型表現。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

延長單次迭代的訓練持續時間不會降低SPIN的效能,但會達到極限。

迭代次數越多,SPIN的效果的就越明顯。

網友在看完這篇論文之後感嘆:

#合成資料將主宰大語言模型的發展,對於大語言模型的研究者來說將會是非常好的消息!

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

自我對弈讓LLM能持續提升

具體來說,研究人員所發展的SPIN系統,是由兩個相互影響的模型相互促進的系統。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導表示的前一次迭代t的LLM,研究人員使用它來產生對人工註解的SFT資料集中的提示x的回應y 。

接下來的目標是找到一個新的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導#,能夠區分UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導生成的反應y和人類生成的響應y'。

這個過程可以看作是一個兩人遊戲:

#主要玩家或新的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導試圖辨別對手玩家的反應和人類生成的反應,而對手或舊的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導產生反應與人工註解的SFT資料集中的資料盡可能相似。

透過對舊的UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導進行微調而獲得的新LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導更喜歡UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導的回應,從而產生與UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導更一致的分佈UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

在下一次迭代中,新獲得的LLMUCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導成為反應生成的對手,自我對弈過程的目標是LLM最終收斂到UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導,使得最強的LLM不再能夠區分其先前產生的反應版本和人類生成的版本。

如何使用SPIN提升模型效能

#研究人員設計了雙人遊戲,其中主要模型的目標是區分LLM產生的反應和人類生成的回應。同時,對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回覆和人類的回應。

研究人員方法的核心是自我賽局機制,其中主玩家和對手都是相同的LLM,但來自不同的迭代。

更具體地說,對手是上一次迭代中的舊LLM,而主玩家是當前迭代中要學習的新LLM。在迭代t 1時包括以下兩個步驟:(1)訓練主模型,(2)更新對手模型。

訓練主模型

#首先,研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分機率度量(IPM)的啟發,研究人員制定了目標函數:

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導

#更新對手模型

對手模型的目標是找到更好的LLM,使其產生的反應與主模型的p資料無異。

實驗

SPIN有效提升基準效能

研究者使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明SPIN的有效性。

在下圖中,研究人員將經過0到3次迭代後透過SPIN微調的模型與基本模型zephyr-7b-sft-full的性能進行了比較。

研究人員可以觀察到,SPIN透過進一步利用SFT資料集,在提高模型效能方面表現出了顯著的效果,而基礎模型已經在該資料集上進行了充分的微調。

在第0次迭代中,模型反應是從zephyr-7b-sft-full產生的,研究人員觀察到平均分數總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中,這項改進尤其顯著,分別提高了超過5%和10%。

在迭代1中,研究人員採用迭代0中的LLM模型來產生SPIN的新回應,並遵循演算法1中概述的流程。

此迭代平均產生1.32%的進一步增強,在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨後的迭代延續了各種任務增量改進的趨勢。同時,迭代t 1時的改進自然更小

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

zephyr-7b-beta是從zephyr-7b- sft-full衍生出來的模型,使用DPO在大約62k個偏好資料上訓練而成。

研究人員注意到,DPO需要手動輸入或高階語言模型回饋來確定偏好,因此資料產生是一個相當昂貴的過程。

相較之下,研究者的SPIN只需要初始模型本身就可以。

此外,與需要新資料來源的DPO不同,研究人員的方法完全利用現有的SFT資料集。

下圖顯示了SPIN在迭代0和1(採用50k SFT資料)與DPO訓練的表現比較。

UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導圖片

研究人員可以觀察到,雖然DPO利用了更多新來源的數據,但基於現有SFT數據的SPIN從迭代1開始,SPIN甚至超越了DPO的性能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

參考資料:

https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

################################################################ ########

以上是UCLA華人提出全新自我對弈機制! LLM自己訓練自己,效果碾壓GPT-4專家指導的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

本地使用Groq Llama 3 70B的逐步指南 本地使用Groq Llama 3 70B的逐步指南 Jun 10, 2024 am 09:16 AM

譯者|布加迪審校|重樓本文介紹如何使用GroqLPU推理引擎在JanAI和VSCode中產生超快速反應。每個人都致力於建立更好的大語言模型(LLM),例如Groq專注於AI的基礎設施方面。這些大模型的快速響應是確保這些大模型更快捷響應的關鍵。本教學將介紹GroqLPU解析引擎以及如何在筆記型電腦上使用API​​和JanAI本地存取它。本文也將把它整合到VSCode中,以幫助我們產生程式碼、重構程式碼、輸入文件並產生測試單元。本文將免費創建我們自己的人工智慧程式設計助理。 GroqLPU推理引擎簡介Groq

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化 加州理工華人用AI顛覆數學證明!提速5倍震驚陶哲軒,80%數學步驟全自動化 Apr 23, 2024 pm 03:01 PM

LeanCopilot,讓陶哲軒等眾多數學家讚不絕口的這個形式化數學工具,又有超強進化了?就在剛剛,加州理工學院教授AnimaAnandkumar宣布,團隊發布了LeanCopilot論文的擴展版本,更新了程式碼庫。圖片論文地址:https://arxiv.org/pdf/2404.12534.pdf最新實驗表明,這個Copilot工具,可以自動化80%以上的數學證明步驟了!這個紀錄,比以前的基線aesop還要好2.3倍。並且,和以前一樣,它在MIT許可下是開源的。圖片他是一位華人小哥宋沛洋,他是

從'人+RPA”到'人+生成式AI+RPA”,LLM如何影響RPA人機互動? 從'人+RPA”到'人+生成式AI+RPA”,LLM如何影響RPA人機互動? Jun 05, 2023 pm 12:30 PM

圖片來源@視覺中國文|王吉偉從“人+RPA”到“人+生成式AI+RPA”,LLM如何影響RPA人機互動?換個角度,從人機互動看LLM如何影響RPA?影響程式開發與流程自動化人機互動的RPA,現在也要被LLM改變了? LLM如何影響人機互動?生成式AI怎麼改變RPA人機互動?一文看得懂:大模型時代來臨,基於LLM的生成式AI正在快速變革RPA人機交互;生成式AI重新定義人機交互,LLM正在影響RPA軟體架構變遷。如果問RPA對程式開發以及自動化有哪些貢獻,其中一個答案便是它改變了人機互動(HCI,h

Plaud 推出 NotePin AI 穿戴式錄音機,售價 169 美元 Plaud 推出 NotePin AI 穿戴式錄音機,售價 169 美元 Aug 29, 2024 pm 02:37 PM

Plaud Note AI 錄音機(亞馬遜上有售,售價 159 美元)背後的公司 Plaud 宣布推出一款新產品。該設備被稱為 NotePin,被描述為人工智慧記憶膠囊,與 Humane AI Pin 一樣,它是可穿戴的。 NotePin 是

七個很酷的GenAI & LLM技術性面試問題 七個很酷的GenAI & LLM技術性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

See all articles