首頁 科技週邊 人工智慧 自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

Jan 23, 2024 pm 01:15 PM
meta 工程 紐約大學 自我獎勵方法

人工智慧的回饋(AIF)要取代 RLHF 了?


大模型領域中,微調是改善模型效能的重要一步。隨著開源大模型逐漸變多,人們總結出了許多微調方式,其中一些取得了很好的結果。

最近,來自Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己產生自己的微調數據,給人帶來了一點新的震撼。

在新方法中,作者對Llama 2 70B 進行了三個迭代的微調,生成的模型在AlpacaEval 2.0 排行榜上優於一眾現有重要大模型,包括Claude 2、Gemini Pro 和GPT-4。
自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現
因此,論文剛發上 arXiv 幾個小時就引起了人們的注意。

雖然目前方法還沒有開源,但是人們認為論文中使用的方法描述清晰,復現起來應該不難。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

眾所周知,使用人類偏好資料調整大語言模型(LLM)可以大幅提高預訓練模型的指令追蹤效能。在GPT 系列中,OpenAI 提出了人類回饋強化學習(RLHF) 的標準方法,讓大模型可以從人類偏好中學習獎勵模型,再使得獎勵模型被凍結並用於使用強化學習訓練LLM,這種方法已獲得了巨大的成功。

最近出現的新想法是完全避免訓練獎勵模型,並直接使用人類偏好來訓練 LLM,例如直接偏好最佳化(DPO)。在上述兩種情況下,調優都受到人類偏好資料的大小和品質的瓶頸,並且在 RLHF 的情況下,調優質量也受到從它們訓練的凍結獎勵模型的品質的瓶頸。

在Meta 的新工作中,作者提議訓練一個自我改進的獎勵模型,該模型不是被凍結,而是在LLM 調整期間不斷更新,以避免這一瓶頸。

這種方法的關鍵是發展一個擁有訓練期間所需的所有能力的智能體(而不是分為獎勵模型和語言模型),讓指令跟隨任務的預訓練和多任務訓練允許透過同時訓練多個任務來實現任務遷移。

因此作者引入了自我獎勵語言模型,其智能體既充當遵循模型的指令,為給定的提示生成響應,也可以根據示例生成和評估新指令,以添加到他們自己的訓練集中。

新方法使用類似迭代 DPO 的框架來訓練這些模型。從種子模型開始,如圖 1 所示,在每次迭代中都有一個自指令建立過程,其中模型為新建立的提示產生候選響應,然後由相同模型分配獎勵。後者是透過 LLM-as-a-Judge 的提示來實現的,這也可以看作是指令跟隨任務。根據產生的資料建立偏好資料集,並透過 DPO 訓練模型的下一次迭代。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

  • 論文標題:Self-Rewarding Language Models

  • 論文連結:https://arxiv. org/abs/2401.10020

自我獎勵的語言模型

#作者提出的方法首先假設:可以存取基本的預訓練語言模型和少量人工註釋的種子數據,然後建立一個模型,旨在同時擁有兩種技能:

#1. 指令遵循:給出描述用戶請求的提示,能夠產生高品質、有幫助(且無害)的回應。

2. 自指令建立:能夠按照範例產生和評估新指令以新增至自己的訓練集中。

使用這些技能是為了使模型能夠執行自對準,即它們是用於使用人工智慧回饋(AIF)迭代訓練自身的元件。

自指令的創建包括產生候選回應,然後讓模型本身判斷其質量,即它充當自己的獎勵模型,從而取代對外部模型的需求。這是透過 LLM-as-a-Judge 機制實現的 [Zheng et al., 2023b],即透過將反應評估制定為指令跟隨任務。這個自行創建的 AIF 偏好資料被用作訓練集。

所以在微調過程中,相同的模型被用於兩個角色:作為「學習者」和作為「法官」。基於新出現的法官角色,模型可以透過上下文微調來進一步提升表現。

整體的自對齊過程是一個迭代過程,透過以下步驟來進行:建立一系列模型,每個模型都比上一個模型有所改進。在這其中重要的是,由於模型既可以提高其生成能力,又可以透過相同的生成機製作為自己的獎勵模型,這意味著獎勵模型本身可以透過這些迭代來改進,這就與獎勵模型固有的標準做法出現了差異。 

研究者認為,這種方式可以提高這些學習模式未來自我改進的潛力上限,並消除限制性瓶頸。 

圖 1 展示了此方法的概述。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

實驗

#在實驗中,研究者使用了Llama 2 70B 作為基礎預訓練模式。他們發現,與基線種子模型相比,自獎勵 LLM 對齊不僅提高了指令跟隨表現,獎勵建模能力也提高了。

這意味著在迭代訓練中,模型能夠在給定的迭代中為自己提供比上一次迭代品質更好的偏好資料集。雖然這種影響在現實世界中會趨於飽和,但提供了一個有趣的可能:這樣得到的獎勵模型(以及 LLM)要優於僅從人類撰寫的原始種子資料中訓練的模型。

在指令跟隨能力方面,實驗結果如圖3 所示:

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現研究者在AlpacaEval 2 排行榜上評估了自獎勵模型,結果如表1 所示。他們觀察到了與 head-to-head 評估相同的結論,即訓練迭代的勝率比 GPT4-Turbo 高,從迭代 1 的 9.94%,到迭代 2 的 15.38%,再到迭代 3 的 20.44%。同時,迭代 3 模型優於許多現有模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。

自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現

獎勵建模評估結果如表2,結論包括:
  • EFT在SFT基線上有所改進,使用IFT EFT與單獨使用IFT相比,五個測量指標都有所提升。例如,與人類的配對準確率一致性從65.1%上升到78.7%。

  • 透過自我訓練提升獎勵建模能力。在進行一輪自我獎勵訓練後,模型為下一次迭代提供自我獎勵的能力得到了提高,此外它的指令跟隨能力也得到了提高。

  • LLMas-a-Judge 提示的重要性。研究者使用了各種提示格式發現,LLMas-a-Judge 提示在使用 SFT 基線時成對準確率更高。

作者認為,自我獎勵的訓練方式既提升了模型的指令追蹤能力,也提升了模型在迭代中的獎勵建模能力。

雖然這只是一項初步研究,但看來已是一個令人興奮的研究方向,此種模型能夠更好地在未來的迭代中分配獎勵,以改善指令遵循,實現一種良性循環。

這種方法也為更複雜的判斷方法開啟了一定的可能性。例如,大模型可以透過搜尋資料庫來驗證其答案的準確性,從而獲得更準確和可靠的輸出。

參考:https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/
#

以上是自我獎勵下的大型模型:Llama2透過Meta學習自行優化,超越GPT-4的表現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1659
14
CakePHP 教程
1415
52
Laravel 教程
1310
25
PHP教程
1258
29
C# 教程
1232
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

首個超越GPT4o級開源模型! Llama 3.1洩密:4050億參數,下載連結、模型卡都有了 首個超越GPT4o級開源模型! Llama 3.1洩密:4050億參數,下載連結、模型卡都有了 Jul 23, 2024 pm 08:51 PM

快準備好你的GPU! Llama3.1終於現身了,不過出處卻不是Meta官方。今日,Reddit上新版Llama大模型洩漏的消息遭到了瘋傳,除了基礎模型,還包括8B、70B和最大參數的405B的基準測試結果。下圖為Llama3.1各版本與OpenAIGPT-4o、Llama38B/70B的比較結果。可以看到,即使是70B的版本,也在多項基準上超過了GPT-4o。圖源:https://x.com/mattshumer_/status/1815444612414087294顯然,3.1版本的8B和70

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

最強模型Llama 3.1 405B正式發布,祖克柏:開源引領新時代 最強模型Llama 3.1 405B正式發布,祖克柏:開源引領新時代 Jul 24, 2024 pm 08:23 PM

剛剛,大家期待已久的Llama3.1官方正式發售了! Meta官方發出了「開源引領新時代」的聲音。在官方部落格中,Meta表示:「直到今天,開源大語言模型在功能和效能方面大多落後於封閉模型。現在,我們正在迎來一個開源引領的新時代。我們公開發布MetaLlama3.1405B,我們認為這是世界上最大、功能最強大的開源基礎模型。長文《OpenSourceAIIsthePathForward》,

新款經濟實惠的 Meta Quest 3S VR 頭戴裝置出現在 FCC 上,暗示即將推出 新款經濟實惠的 Meta Quest 3S VR 頭戴裝置出現在 FCC 上,暗示即將推出 Sep 04, 2024 am 06:51 AM

Meta Connect 2024 活動定於 9 月 25 日至 26 日舉行,在本次活動中,該公司預計將推出一款價格實惠的新型虛擬實境耳機。據傳這款 VR 耳機是 Meta Quest 3S,它似乎已經出現在 FCC 清單上。這個建議

See all articles