研究人員在不更改基礎模型的情況下使用隱式和顯式函數對 LLM 進行微調後,開發了推理時間對齊方法來整合人類價值觀。
在使用基於學習的演算法訓練模型後整合人類價值觀需要對 LLM 進行微調,這在計算上是昂貴且耗時的。此外,它還會引起用戶的偏見和不良反應。我們需要一個能夠透過整合可在推理時進行幹擾的演算法來有效地即時適應用戶偏好的模型。此方法將透過凍結基礎模型並減少微調 LLM 的計算成本來避免重複重新訓練模型以獲得所需結果。
研究人員在使用隱式和顯式函數對法學碩士進行微調後,開發了推理時間對齊方法來整合人類價值觀,而無需更改基礎模型。隱式函數用於標記生成,逐字評估並優先選擇機率最高的輸出。相較之下,顯式函數需要嚴格的結構來評估較大的文字區塊,並以最高的機率產生以下單字序列,同時保持整體上下文。顯式函數不靈活且計算量大,無法解決 token 等級的最佳化,而隱式函數面臨可解釋性問題,需要頻繁的前向傳遞,導致即時效率較低。
為了解決這兩個函數的缺點,所提出的方法整合價值指導(IVG)結合了隱式函數的代幣級最佳化和顯式函數的更廣泛的視角。它能夠避免適應挑戰和對齊效率的權衡,從而減少效能差異並使其更容易實施。這些優勢有助於更好地執行受控情緒生成和摘要等任務。 IVG 與 GPT-2 等較小模型相結合,可以與更高模型競爭。
IVG 結合了兩個價值函數,即隱式函數和顯式函數,以使模型與人類價值保持一致。首先,按標記取樣將各個標記微調到特定的序列長度,產生多個序列。然後,區塊級波束搜尋比較這些序列的機率並選擇機率最高的一個。雖然這種方法保證了輸出更加穩健,但由於頻繁的前向傳遞,計算能力在推理時間內增加,導致反應速度變慢。
研究人員使用了兩種實驗設定來評估 IVG:1. 受控情緒生成和總結,2. 遵循指令。在第一個模型中,GPT-2 模型系列透過利用黃金獎勵模型的合成資料集來產生正面的電影評論並總結 Reddit 貼文。相較之下,第二個需要指令調整模型 AlpacaEval 2.0。它採用了 Tulu Guidance,它使用隱式函數的特定模型,並為顯式函數訓練基於獎勵的模型,以及 Ultraguidance,它使用直接偏好優化 (DPO) 對這兩種函數的模型進行微調。第二次實驗中使用 GPT-4-turbo 作為參考來評估反應,IVG 始終表現良好。
除了這兩個實驗之外,一項消融研究證明,Chunk-Level Beam Search (CBS) 比使用隱式函數進行微調的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。這些結果證明CBS在實踐中使用起來會好得多。
總之,綜合價值指導(IVG)提供了一種新穎而有效的方法,可以純粹在推理時將大型語言模型與人類偏好保持一致,從而繞過傳統微調的複雜性。透過利用隱式和顯式價值函數,IVG 增強了 token-wise 採樣和區塊級解碼的效能,正如情緒生成、摘要和指令追蹤任務的顯著改進所證明的那樣。結果表明,IVG 是一種多功能方法,提供了強有力的經驗證據,證明其超越現有方法的能力,使其成為在現實應用中微調大型模型的有前景的解決方案。
別忘了加入我們的 50k ML SubReddit
想要面對 100 萬人工智慧讀者嗎?在這裡與我們一起工作
以上是IVG:在推理時將人類價值整合到大型語言模型中的詳細內容。更多資訊請關注PHP中文網其他相關文章!