像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍
現有的大模型對齊方法包括基於範例的監督微調(SFT)和基於分數回饋的強化學習(RLHF)。然而,分數只能反應目前回應的好壞程度,並不能明確指出模型的不足之處。相較之下,我們人類通常是從語言回饋中學習並調整自己的行為模式。就像審稿意見不只是一個分數,還包括許多接受或拒絕的理由。
那麼,大語言模型能否也像人類一樣利用語言回饋來改善自身呢?
香港中文大學和騰訊AI Lab的研究者們最近提出了一項名為對比式非似然訓練(Contrastive Unlikelihood Learning,CUT)的創新研究。該研究利用語言回饋來調整語言模型,使其能夠像人類一樣從不同的批評意見中學習和進步。這項研究旨在提高語言模型的品質和準確性,使其更符合人類思維方式。透過對比非似然訓練,研究者們希望能讓語言模型更好地理解和適應多樣化的語言使用情境,從而提高其在自然語言處理任務中的表現。這項創新研究有望為語言模型
CUT是簡單而有效的方法。僅透過使用1317條語言回饋數據,CUT能夠大幅提升LLaMA2-13b在AlpacaEval上的勝率,從1.87%飆升至62.56%,並成功擊敗了175B的DaVinci003。令人興奮的是,CUT還能像其他強化學習與強化學習強化回饋(RLHF)框架一樣進行探索、批評與改進的循環迭代。在這過程中,批評階段可以由自動評價模型完成,以實現整個系統的自我評估和提升。
作者對 LLaMA2-chat-13b 進行了四輪迭代,將模型在 AlpacaEval 上的性能從 81.09% 逐步提升至 91.36%。相較於基於分數回饋的對齊技術(DPO),CUT 在同等資料規模下表現較佳。研究結果揭示了語言回饋在對齊領域具有巨大的發展潛力,為未來的對齊研究開闢了新的可能性。這項發現對於提高對齊技術的精確性和效率具有重要意義,並為實現更好的自然語言處理任務提供了指導。
- 論文標題:Reasons to Reject? Aligning Language Models with Judgments
- #論文連結:https://arxiv.org/abs/2312.14591
- Github 連結:https://github.com/ wwxu21/CUT
大模型的對齊
##根據現有工作,研究人員總結了兩種常見的大模型對齊方式:
1. 從範例中學習(Learning from Demonstration):基於現成的指令- 回复對,利用監督式訓練的方法來對齊大模型。
- 優點:訓練穩定;實現簡單。
- 缺點:收集高品質、多樣化的範例資料成本高;無法從錯誤回覆中學習;範例資料往往和模型無關。
2. 從分數回饋中學習(Learning from Rewards):給指令- 回復對打分,利用強化學習訓練模型最大化其回复的得分。
- 優點:能同時利用正確回覆與錯誤回覆;回饋訊號與模型相關。
- 缺點:回饋訊號稀疏;訓練過程往往較為複雜。
此研究關注的則是從語言回饋中學習(Learning from Judgments):給指令- 回覆對寫評語,基於該語言回饋改進模型存在的瑕疵,保持模型的優點,進而提升模型效能。
可以看出,語言回饋繼承了分數回饋的優點。與分數回饋相比,語言回饋的資訊量更大:與其讓模型去猜哪裡做對了和哪裡做錯了,語言回饋可以直接指出詳細的不足之處和改進方向。然而,令人遺憾的是,研究者發現目前尚無有效方法能充分利用語言回饋。為此,研究者提出了一個創新的框架 CUT,旨在充分發揮語言回饋的優勢。
對比式非似然訓練
CUT 的核心思想是從對比中學習。研究者透過對比大模型在不同條件下的回應去啟發哪些部分是令人滿意的,應該保持,哪些部分是有瑕疵,需要修改。基於此,研究者利用最大似然估計(MLE)來訓練令人滿意的部分,利用非似然訓練(UT)來修改回復中的瑕疵。
1. 對齊場景:如上圖所示,研究者考慮了兩個對齊情境:
a):這是一個通常理解的對齊場景,在該場景下,回應需要忠實地遵循指示並符合人類的期望和價值觀。
b):此場景引入了語言回饋作為額外的條件。在該場景下,回覆要同時滿足指令和語言回饋。例如,當收到一個負面回饋,大模型需要根據對應的回饋中提到的問題去犯錯。
2. 對齊資料:如上圖所示,基於上述兩者對齊場景,研究者們建構了三個類別對齊資料:
a) Align-P:大模型產生了令人滿意的回复,因此獲得了積極的反饋。顯然,Align-P 在和
場景下都是滿足對齊的。
b) Align-N:大模型產生了有瑕疵(藍色加粗)的回复,因此獲得了負面的回饋。對於 Align-N,中是不滿足對齊。但考慮到此負面回饋後,Align-N 在
場景下仍是對齊的。
c) Misalign:Align-N 中真實的負面回饋被替換為一條偽造的正面回饋。顯然,Misalign 在和
場景下都不滿足對齊。
3. 從對照學習:
a) Align-N v.s. Misalign:兩者的差異主要在於下的對齊程度。鑑於大模型強大的上下文內學習能力(in-context learning),從Align-N 到Misalign 的對齊極性翻轉通常伴隨著特定詞的生成概率的顯著變化,尤其是那些與真實消極反饋密切相關的詞。如上圖所示,在 Align-N(左通路)的條件下,大模型產生 “a” 的機率明顯高於 Misalign(右通路)。而這機率顯著變化的地方剛好是大模型犯錯的地方。
為了從這個對比中學習,研究者們將Align-N 和Misalign 資料同時輸入給大模型,以取得輸出詞分別在兩個條件下的生成機率和
。那些在
條件下有著明顯高於
條件下的生成機率的字被標記為不合適的字。具體而言,研究者採用以下標準來量化不合適詞的界定:
其中#是權衡不合適詞辨識過程中精確度和召回的超參數。
研究者們對這些辨識出來的不合適詞彙採用非似然訓練(UT),從而迫使大模型去探索更令人滿意的回應。對於其他回應詞,研究者仍採用最大似然估計(MLE)來優化:
是控制非似然訓練的比重的超參數,是回覆詞數。
b) Align-P v.s. Align-N
下的對齊程度。本質上,大模型透過引入不同極性的語言回饋來控制輸出回應的品質。因此該二者的對比能啟發大模型去區分令人滿意的回復和有瑕疵的回應。具體而言,研究者們透過以下最大似然估計(MLE)損失來從該組對比中學習:
##其中
是指示函數,如果資料滿足對齊回傳1,否則回傳0。
CUT 最終的訓練目標結合了上述兩組對比:
。
實驗評估
如上表所示,在通用模型對齊上,研究者使用Shepherd 提供的1317 個對齊數據,分別在冷啟動(LLaMA2)和熱啟動(LLaMA2-chat)的條件下比較了CUT與現有從語言回饋學習的方法。
在基於 LLaMA2 的冷啟動實驗下,CUT 在 AlpacaEval 測試平台上大幅超越現有對齊方法,充分證明了其在利用語言回饋方面的優勢。而 CUT 在 TruthfulQA 上相比於基座模型也取得了大幅提升,這揭示了 CUT 在緩解大模型幻覺(hallucination)問題上有巨大潛力。
在基於 LLaMA2-chat 的熱啟動場景中,現有方法在提升 LLaMA2-chat 方面表現不佳,甚至產生了負面影響。然而,CUT 卻能在此基礎上進一步提升基座模型的效能,再次驗證了 CUT 在利用語言回饋方面的巨大潛力。
b) 專家模型
#研究者同時測試了在特定專家任務(文本摘要)上CUT 的對齊效果。如上表所示,CUT 在專家任務上相比現有對齊方法也取得了明顯的提升。
2. 線上對齊
#離線對齊的研究已經成功證明了 CUT 的強大對齊性能。現在,研究者進一步地探索了更貼近實際應用的線上對齊場景。在這個場景中,研究者迭代地對目標大模型的回應進行語言回饋標註,使該目標模型能夠根據與其相關的語言回饋進行更精確的對齊。具體流程如下:
-
步驟1:收集指令
,並獲得目標大模型的回應
。
-
步驟 2:針對上述指示 - 回覆對,標註語言回饋
。
-
步驟 3:採用 CUT,基於收集到的三元組資料
微調目標大模型。
#如上圖所示,經過四輪線上對齊迭代後,CUT 在僅有4000 條訓練資料和較小的13B 模型規模的條件下,仍然能夠取得令人矚目的91.36 分數。這項成績進一步展示了 CUT 卓越的性能和巨大的潛力。
3. AI 評語模型
考慮到語言回饋的標註成本,研究者嘗試訓練評語模型(Judgement Model)來自動為目標大模型標註語言回饋。如上圖所示,研究者分別使用 5000 個(AI Judge-5000)和 3000 個(AI Judge-3000)語言回饋資料來訓練了兩個評語模型。這兩個評語模型在優化目標大型模型方面都取得了顯著成果,尤其是 AI Judge-5000 的效果更為突出。
這證明了利用 AI 評語模型對齊目標大模型的可行性,同時也突顯了評語模型品質在整個對齊過程中的重要性。這組實驗也為未來降低標註成本提供了強力支持。
4. 語言回饋 vs. 分數回饋
#為了深入挖掘語言回饋在大型模型對齊中的巨大潛力,研究者將基於語言回饋的 CUT 與基於分數回饋的方法(DPO)進行了對比。為了確保比較的公平性,研究者選取了 4000 組相同的指令 - 回復對作為實驗樣本,讓 CUT 和 DPO 分別從這些資料所對應的分數回饋和語言回饋中學習。
如上表所示,在冷啟動(LLaMA2)實驗中,CUT 的表現明顯優於 DPO。而在熱啟動(LLaMA2-chat)實驗中,CUT 在 ARC、HellaSwag、MMLU 和 TruthfulQA 等任務上能取得與 DPO 相媲美的成績,並在 AlpacaEval 任務上大幅領先 DPO。這項實驗證實了在大型模型對齊過程中,相較於分數回饋,語言回饋具有更大的潛力和優勢。
總結與挑戰
該工作中,研究者們系統地探討了語言回饋在大模型對齊中的現狀並創新性地提出了一個基於語言回饋的對齊框架CUT,揭示了語言回饋在大型模型對齊領域所具有的巨大潛力和優勢。此外,語言回饋的研究還有一些新的方向和挑戰,例如:
#1. 評語模型的品質:儘管研究人員已成功地證實了訓練評語模型的可行性,但在觀察模型輸出時,他們仍然發現評語模型經常給予不夠準確的評估。因此,提升評語模式的品質對於未來大規模利用語言回饋進行對齊具有舉足輕重的意義。
2. 新知識的引入:當語言回饋涉及大模型所缺乏的知識時,大模型即使能準確地辨識出錯誤的地方,但也沒有明確的修改方向。因此在對齊的同時補足大模型缺乏的知識非常重要。
3. 多模態對齊:語言模型的成功促進了多模態大模型的研究,如語言、語音、影像和視訊的結合。在這些多模態場景下,研究語言回饋以及對應模態的回饋迎來了新的定義和挑戰。
以上是像人類一樣在批評中學習成長,1317條評語讓LLaMA2勝率飆升30倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
