大型語言模型(LLM)的成功離不開「基於人類回饋的強化學習(RLHF)」。 RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,透過分類目標為前者分配更高的分數。然後透過某種強化學習演算法優化這個獎勵函數。然而,獎勵模型的關鍵要素可能會產生一些不良影響。 來自卡內基美隆大學(CMU)和Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的RLHF 新方法- 自我博弈偏好最佳化(Self-Play Preference Optimization,SPO)。此方法消除了獎勵模型,並且不需要對抗性訓練。
論文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback論文地址:https://arxiv.org/abs/2401.04056#SPO 方法主要包含兩個面向。首先,該研究透過將 RLHF 建構為兩者零和博弈(zero-sum game),真正消除了獎勵模型,從而更有能力處理實踐中經常出現的噪音、非馬可夫偏好。其次,透過利用博弈的對稱性,研究證明可以簡單地以自我博弈的方式訓練單一智能體,從而消除了不穩定對抗訓練的需要。 實際上,這相當於從智能體中取樣多個軌跡,要求評估者或偏好模型比較每對軌跡,並將獎勵設定為軌跡的獲勝率。 SPO 避免了獎勵建模、複合 error 和對抗性訓練。透過從社會選擇理論(social choice theory)中建立最小最大獲勝者的概念,該研究將RLHF 構建為兩者零和博弈,並利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。
該研究也分析了SPO 的收斂特性,並證明在潛在獎勵函數確實存在的情況下,SPO 能以與標準方法相媲美的快速速度收斂到最優策略。 #該研究在一系列具有現實偏好函數的連續控制任務上,證明了SPO 比基於獎勵模型的方法表現更好。 SPO 在各種偏好設定中能夠比基於獎勵模型的方法更有效地學習樣本,如下圖 2 所示。
#該研究從多個維度將SPO 與迭代獎勵建模(RM) 方法進行比較,旨在回答4 個問題:
- 當面intransitive 偏好時,SPO 能否計算MW?
- 在具有獨特 Copeland Winners / 最優策略的問題上,SPO 能否匹配或超過 RM 樣本效率?
在最大獎勵偏好、噪音偏好、非馬可夫偏好方面,研究的實驗結果分別如下圖6、7、8 所示:#
以上是谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!