十行程式碼媲美RLHF,用社群遊戲資料訓練社會對齊模型
讓語言模型的行為符合人類社會價值觀是目前語言模型發展的重要環節。相應的訓練也被稱為價值對齊 (value alignment)。
目前主流的方案是 ChatGPT 所採用的 RLHF (Reinforcenment Learning from Human Feedback),也就是在人類回饋上進行強化學習。這個方案首先先訓練一個 reward model (價值模型)作為人類判斷的代理。代理模型在強化學習階段為生成式語言模型的提供獎勵作為監督訊號。
此方法存在如下痛點:
#1.代理模型產生的獎勵很容易被破除或竄改。
2. 在訓練過程中,代理模型需要和生成式模型進行不斷交互,而這個過程可能非常耗時且效率不高。 為了確保高品質的監督訊號,代理模型不應小於生成式模型,這也意味著在強化學習最佳化過程中,至少有兩個比較大的模型需要交替進行推理(判斷得到的獎勵)和參數更新(生成式模型參數最佳化)。這樣的設定在大規模分散式訓練中可能會非常不便。
3. 價值模型本身並無和人類思考模型上明顯的對應。 我們腦海中並沒有一個單獨的評分模型,而且實際上長期維護一個固定的打分標準也非常困難。相反,我們的成長過程中價值判斷的形成大部分來自每天的社交 —— 透過對相似場景的不同社交回饋的分析,我們逐漸意識到什麼是會被鼓勵的,什麼是不允許的。這些透過大量 「社交 — 回饋 — 改進」 而逐漸累積的經驗和共識成為了人類社會共同的價值判斷。
最近一項來自達特茅斯,史丹佛,GoogleDeepMind 等機構的研究表明,利用社交遊戲構造的高品質數據配合簡單高效的對齊演算法,也許才是實現alignment 的關鍵所在。
- #文章網址:https://arxiv.org/pdf/2305.16960.pdf
- 程式碼位址:https://github.com/agi-templar/Stable-Alignment
- ##模型下載(包含基座,SFT,和對齊模型):https://huggingface.co/agi-css
作者提出一種在多智能體遊戲資料上訓練的對齊方法。基本思想可以理解為將訓練階段的獎勵模型和生成式模型的在線交互,轉移到遊戲中大量自主智能體之間的離線交互之中(高採樣率,提前預演博弈)。遊戲環境的運作獨立於訓練,並且可以大量並行。監督訊號從取決於代理獎勵模型的表現變成取決於大量自主智能體的集體智慧。
為此作者設計了一個虛擬社會模型,稱為沙盒 Sandbox。沙盒是一個由格點構成的世界,每一個格點是一個 social agent (社交體)。社交體具有記憶系統,用於儲存每一次互動的問題,回答,回饋等各種資訊。在社交體每一次對問題做出回答時,都要先從記憶系統中檢索並返回和問題最相關的 N 條歷史問答,作為這次回應的上下文參考。透過這項設計,社交體能在多輪互動中的立場不斷更新,且更新的立場能和過去保持一定延續性。初始化階段每一個社交體都有不同的預先設立場。
#將遊戲資料轉換為alignment 資料
############################################################### ##在實驗中作者使用10x10 的格點沙盒(一共100 個社交體)進行社會仿真,並且制定了一個社會規則(即所謂Sandbox Rule):所有社交體必須透過使自己對於問題的回答更加socially aligned (社交對齊)來給其它社交體留下好的印象。此外沙盒也部署了沒有記憶的觀察者,在每一次社交前後,給社交體的答覆做出評分。評分基於 alignment 和 engagement 兩個維度。
使用不同模型在沙盒中的模擬人類社會
#作者利用沙盒Sandbox 測試了不同大小,以及不同訓練階段的語言模型。整體而言,經過 alignment 訓練的模型 (即所謂 「對齊後的模型」),例如 davinci-003, GPT-4,和 ChatGPT,能在更少的互動輪次中就能產生符合社會規範的回應。換句話說,alignment 訓練的意義就在於讓模型在 「開箱即用」 的場景下更加安全,而不需要特別的多輪對話引導。而未經 alignment 訓練的模型,不僅需要更多的互動次數使回覆達到 alignment 和 engagement 的整體最優,而且這種整體最優的上限顯著低於對齊後的模型。
作者同時提出一個簡單易行的對齊演算法,稱為Stable Alignment (穩定對齊),用於從沙盒的歷史資料中學習alignment。穩定對齊演算法在每個mini-batch (小批次)中進行打分調製的對比學習—— 回复的得分越低,對比學習的邊界值就會被設定的越大—— 換句話說,穩定對齊透過不斷採樣小批次數據,鼓勵模型產生更接近高分回复,更不接近低分回复。穩定對齊最終會收斂於 SFT 損失。作者也對穩定對齊和 SFT,RLHF 的差異進行了討論。
作者特別強調來自沙盒Sandbox 的遊戲的數據,由於機制的設定,大量包含通過修訂( revision)而成為符合社會價值的數據。作者透過消融實驗證明這種大量自帶漸進式 (step-by-step)改進的數據是穩定訓練的關鍵。
#作者也和目前主流對準演算法效能和訓練穩定性進行了性能上的比較,證明穩定對齊不僅比reward modeling 更穩定,而且在通用性能和alignment 性能上都足以媲美RLHF (由於ChatGPT 使用未公開的模型,數據和演算法,因此僅作為參考)。
實例產生結果:
#更多細節請參考論文。
以上是十行程式碼媲美RLHF,用社群遊戲資料訓練社會對齊模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
