IVG:在推理時將人類價值整合到大型語言模型中
研究人員在不更改基礎模型的情況下使用隱式和顯式函數對 LLM 進行微調後,開發了推理時間對齊方法來整合人類價值觀。
在使用基於學習的演算法訓練模型後整合人類價值觀需要對 LLM 進行微調,這在計算上是昂貴且耗時的。此外,它還會引起用戶的偏見和不良反應。我們需要一個能夠透過整合可在推理時進行幹擾的演算法來有效地即時適應用戶偏好的模型。此方法將透過凍結基礎模型並減少微調 LLM 的計算成本來避免重複重新訓練模型以獲得所需結果。
研究人員在使用隱式和顯式函數對法學碩士進行微調後,開發了推理時間對齊方法來整合人類價值觀,而無需更改基礎模型。隱式函數用於標記生成,逐字評估並優先選擇機率最高的輸出。相較之下,顯式函數需要嚴格的結構來評估較大的文字區塊,並以最高的機率產生以下單字序列,同時保持整體上下文。顯式函數不靈活且計算量大,無法解決 token 等級的最佳化,而隱式函數面臨可解釋性問題,需要頻繁的前向傳遞,導致即時效率較低。
為了解決這兩個函數的缺點,所提出的方法整合價值指導(IVG)結合了隱式函數的代幣級最佳化和顯式函數的更廣泛的視角。它能夠避免適應挑戰和對齊效率的權衡,從而減少效能差異並使其更容易實施。這些優勢有助於更好地執行受控情緒生成和摘要等任務。 IVG 與 GPT-2 等較小模型相結合,可以與更高模型競爭。
IVG 結合了兩個價值函數,即隱式函數和顯式函數,以使模型與人類價值保持一致。首先,按標記取樣將各個標記微調到特定的序列長度,產生多個序列。然後,區塊級波束搜尋比較這些序列的機率並選擇機率最高的一個。雖然這種方法保證了輸出更加穩健,但由於頻繁的前向傳遞,計算能力在推理時間內增加,導致反應速度變慢。
研究人員使用了兩種實驗設定來評估 IVG:1. 受控情緒生成和總結,2. 遵循指令。在第一個模型中,GPT-2 模型系列透過利用黃金獎勵模型的合成資料集來產生正面的電影評論並總結 Reddit 貼文。相較之下,第二個需要指令調整模型 AlpacaEval 2.0。它採用了 Tulu Guidance,它使用隱式函數的特定模型,並為顯式函數訓練基於獎勵的模型,以及 Ultraguidance,它使用直接偏好優化 (DPO) 對這兩種函數的模型進行微調。第二次實驗中使用 GPT-4-turbo 作為參考來評估反應,IVG 始終表現良好。
除了這兩個實驗之外,一項消融研究證明,Chunk-Level Beam Search (CBS) 比使用隱式函數進行微調的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。這些結果證明CBS在實踐中使用起來會好得多。
總之,綜合價值指導(IVG)提供了一種新穎而有效的方法,可以純粹在推理時將大型語言模型與人類偏好保持一致,從而繞過傳統微調的複雜性。透過利用隱式和顯式價值函數,IVG 增強了 token-wise 採樣和區塊級解碼的效能,正如情緒生成、摘要和指令追蹤任務的顯著改進所證明的那樣。結果表明,IVG 是一種多功能方法,提供了強有力的經驗證據,證明其超越現有方法的能力,使其成為在現實應用中微調大型模型的有前景的解決方案。
別忘了加入我們的 50k ML SubReddit
想要面對 100 萬人工智慧讀者嗎?在這裡與我們一起工作
以上是IVG:在推理時將人類價值整合到大型語言模型中的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

隨著旁觀資本開始進入,加密貨幣市場正經歷重大的情緒轉變。由於對即將到來的反彈的預期,Near Protocol (NEAR) 和 Cardano (ADA) 等項目正在升溫。

草間彌俊 (Shytoshi Kusama) 是領導柴犬生態系統的神秘人物,引發了人們對即將與人工智慧計畫合作的猜測。

Coinbase 的「Based Agent」平台和 Tether 的本地 AI SDK 旨在簡化 AI 驅動的加密貨幣代理的開發。

這種合作夥伴關係標誌著將商業人工智慧代理和自動化整合到 Web3 領域方面取得了重大進展。

投資加密貨幣市場可能非常有利可圖,新代幣偶爾可為投資者帶來高達 160,000% 以上的年回報。

蘋果已為週一發布 iPhone 16 做好準備,準備向 iPhone 消費者介紹生成式人工智慧,大力推動生成式人工智慧的發展

隨著加密貨幣市場面臨波動趨勢,精明的投資者開始將注意力轉向具有韌性和成長潛力的新興項目。由於對比特幣(BTC)價格波動軌蹟的擔憂,

XRP Healthcare 是 XRP Ledger (XRPL) 上的領先製藥和醫療保健平台,已正式進入人工智慧 (AI) 世界。