首頁 科技週邊 人工智慧 人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

Jun 06, 2024 pm 06:32 PM
工程 自我博弈偏好優化

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Richard Sutton 在「The Bitter Lesson」中做過這樣的評價: 「從70年的人工智慧研究中可以得出的最重要教訓是,那些利用計算的通用方法最終是最有效的,而且優勢巨大。」



人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

  • ##自我博弈(self play)就是這樣一種同時利用搜尋和學習從而充分利用和擴大計算規模的方法。
  • 今年年初,加州大學洛杉磯分校(UCLA)的顧全全教授團隊提出了一種
  • 自我博弈微調方法(Self-Play Fine-Tuning, SPIN )
,可不使用額外微調數據,僅靠自我博弈就能大幅提升LLM 的能力。

最近,顧全全教授團隊和卡內基美隆大學(CMU)Yiming Yang教授團隊合作開發了一種名為「自我博弈偏好優化(Self-Play Preference Optimization, SPPO)
」的對齊技術,此新方法旨在透過自我博弈的框架來優化大語言模型的行為,使其更好地符合人類的偏好。左右互搏再顯神通!


論文標題:Self-Play Preference Optimization for Language Model Alignment

論文連結:https://arxiv.org/pdf/2405.00675.pdf

技術背景與挑戰

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

#大語言模型(LLM)正成為人工智慧領域的重要推動力,憑藉其出色的文本生成和理解能力在種任務中表現卓越。儘管LLM的能力令人矚目,但要讓這些模型的輸出行為更符合實際應用中的需求,通常需要透過對準(alignment)過程進行微調。

這個過程關鍵在於調整模型以更好地反映人類的偏好和行為準則。常見的方法包括基於人類回饋的強化學習(RLHF)或直接偏好優化(Direct Preference Optimization,DPO)。

基於人類回饋的強化學習(RLHF)依賴於顯式的維護一個獎勵模型用來調整和細化大語言模型。換言之,例如,InstructGPT就是基於人類偏好資料先訓練一個服從Bradley-Terry模型的獎勵函數,然後使用像近似策略優化(Proximal Policy Optimization,PPO)的強化學習演算法去優化大語言模型。去年,研究者提出了直接偏好優化(Direct Preference Optimization,DPO)。

不同於RLHF維護一個明確的獎勵模型,DPO演算法隱含的服從Bradley-Terry模型,但可以直接用於大語言模型最佳化。已有工作試圖透過多次迭代的使用DPO來進一步微調大模型 (圖1)。

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

###卷######如Bradley-Terry這樣的參數模型會為每個選擇提供一個數值分數。這些模型雖然提供了合理的人類偏好近似,但未能完全捕捉人類行為的複雜性。 ###############這些模型往往假設不同選擇之間的偏好關係是單調和傳遞的,而實證證據卻常常顯示出人類決策的非一致性和非線性,例如Tversky的研究觀察到人類決策可能會受到多種因素的影響,並表現出不一致性。 ##################SPPO的理論基礎與方法##################
                                 圖2.中非常想上排性愛的兩個語言模型上進行常態與遊戲。

在這些背景下,作者提出了一個新的自我博弈框架SPPO,該框架不僅具有解決兩個玩家常和博弈(two-player constant-sum game)的可證明保證,而且可以擴展到大規模的高效微調大型語言模型。

具體來說,文章將RLHF問題嚴格定義為一個兩玩家常和博弈 (圖2)。工作的目標是識別納許均衡策略,這種策略在平均意義上始終能提供比其他任何策略更受偏好的回應。

為了近似地識別納許均衡策略,作者採用了具有乘法權重的經典線上自適應演算法作為解決兩玩家博弈的高層框架演算法。

在該框架的每一步內,演算法可以透過自我博弈機制來近似乘法權重更新,其中在每一輪中,大語言模型都在針對上一輪的自身進行微調,透過模型產生的合成資料和偏好模型的註解來進行最佳化。

具體來說,大語言模型在每一輪迴會針對每個提示產生若干回應;依據偏好模型的標註,演算法可以估計出每個回覆的勝率;演算法從而可以進一步微調大語言模型的參數使得那些勝率高的回應擁有更高的出現機率(圖3)。

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

                                圖上加碼模型

#實驗設計與成果

在實驗中,研究團隊採用了一種Mistral-7B作為基準模型,並使用了UltraFeedback資料集的60,000個提示(prompt)進行無監督訓練。他們發現,透過自我博弈的方式,模型能夠顯著提高在多個評估平台上的表現,例如AlpacaEval 2.0和MT-Bench。這些平台廣泛用於評估模型生成文本的品質和相關性。

透過SPPO方法,模型不僅在
生成文字的流暢性準確性上得到了改進,更重要的是:「它在符合人類價值和偏好方面表現得更加出色」。

人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈

                                 圖中 4.SPPO模型在AlpacaEval 2.0020672.0% 上的高度提升。

在AlpacaEval 2.0的測試中(圖4),經過SPPO優化的模型在長度控制勝率方面從基線模型的17.11%提升到了28.53%,顯示了其對人類偏好理解的顯著提高。經過三輪SPPO優化的模型在AlpacaEval2.0上顯著優於多輪迭代的DPO, IPO和自我獎勵的語言模型(Self-Rewarding LM)。

此外,模型在MT-Bench上的表現也超過了傳統透過人類回饋調優的模型。這證明了SPPO在自動調整模型行為以適應複雜任務的有效性。

結論與未來展望

#自我博弈偏好最佳化(SPPO)為大語言模型提供了一個全新的最佳化路徑,不僅提高了模型的生成質量,更重要的是提高了模型與人類偏好的對齊度。

隨著技術的不斷發展和優化,預計SPPO及其衍生技術將在人工智慧的可持續發展和社會應用中發揮更大的作用,為構建更智慧和負責任的AI系統鋪路。

以上是人類偏好就是尺! SPPO對齊技術讓大語言模型左右互搏、自我博弈的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1662
14
CakePHP 教程
1418
52
Laravel 教程
1311
25
PHP教程
1261
29
C# 教程
1234
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles