隨著大型語言模型(LLM)的發展,從業者面臨更多挑戰。如何避免 LLM 產生有害回覆?如何快速刪除訓練資料中的版權保護內容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在資料政策變更後快速迭代 LLM?這些問題在人工智慧法律和道德的合規要求日益成熟的大趨勢下,對於 LLM 的安全可信部署至關重要。
目前業界的主流解決方案是透過使用強化學習的方式對齊LLM(對齊)來微調對比數據(正樣本和負樣本),以確保LLM的輸出符合人類的預期和價值觀。然而,這個對齊過程通常會受到資料收集和計算資源的限制
位元組跳動提出了一種讓LLM進行遺忘學習的方法來對齊。本文研究如何在LLM上進行"遺忘"操作,即忘記有害行為或遺忘學習(Machine Unlearning)。作者展示了遺忘學習在三種LLM對齊場景上取得的明顯效果:(1)刪除有害輸出;(2)移除侵權保護內容;(3)消除大語言LLM幻覺
遺忘學習有三個優點:(1) 只需負樣本(有害樣本),負樣本比RLHF 所需的正樣本(高品質的人工手寫輸出)的收集簡單的多(例如紅隊測試或用戶報告);(2) 計算成本低;(3) 如果知道哪些訓練樣本導致LLM 有害行為時,遺忘學習尤其有效。
作者的論點是,對於資源有限的從業者來說,他們應該優先考慮停止產生有害輸出,而不是試圖追求過於理想化的輸出,並且忘記學習是一種方便的方法。儘管只有負樣本,研究表明,在只使用2%的計算時間下,忘記學習仍然可以獲得比強化學習和高溫高頻演算法更好的對齊性能
在資源有限的情況下,我們可以採用這種方法來最大程度地發揮優勢。當我們沒有預算請人員編寫高品質樣本或計算資源不足時,我們應該優先停止LLM 產生有害輸出,而不是試圖讓它產生有益輸出
有害的輸出所造成的損害是無法被有益的輸出所彌補的。如果一個使用者向LLM提出100個問題,他得到的答案是有害的,那麼他將失去信任,無論LLM之後提供了多少有益的答案。有害問題的預期輸出可能是空格、特殊字元、無意義的字串等,總之,必須是無害的文字
展示了LLM遺忘學習的三個成功案例: (1) 停止產生有害回复(請將內容改寫為中文,不需要出現原始句子);這與RLHF情境相似,區別是本方法的目標是產生無害回复,而不是有益回复。當只有負樣本時,這是能期望的最佳結果。 (2) 在使用侵權數據訓練後,LLM成功刪除了數據,並考慮到成本因素不能重新訓練LLM;(3) LLM成功忘記了"幻覺"
請將內容改寫為中文,不需要出現原始句子
在微調步驟t中, LLM的更新如下:
第一項損失為梯度上升(graident descent),目的為忘記有害樣本:
#為有害提示 (prompt),為對應的有害回應。整體損失反向提升了有害樣本的損失,即讓 LLM “遺忘” 有害樣本。
第二項損失是針對隨機誤配的,它要求LLM在有害提示的情況下預測出無關回應。這類似於分類中的標籤平滑(label smoothing [2])。其目的是讓LLM更好地遺忘有害提示上的有害輸出。同時,實驗證明這種方法可以提高LLM在正常情況下的輸出性能
第三項損失為在正常任務上維持性能:
同RLHF 類似,在預訓練LLM 上計算KL 散度能更好地維持LLM 效能。
此外,所有的梯度上升和下降都只在輸出(y)部分做,而不是像 RLHF 在提示 - 輸出對(x, y)上。
#本文以PKU-SafeRLHF 數據作為遺忘數據,TruthfulQA 作為正常數據,圖二的內容需要進行改寫顯示了遺忘學習後LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA(梯度上升和 GA Mismatch:梯度上升 隨機誤配)。遺忘學習後的有害率接近零。
圖二的內容需要進行改寫
#第三張圖顯示了有害提示(不被遺忘)的輸出結果,這是之前未曾見過的。即使在沒有被遺忘的有害提示上,LLM 的有害率也接近零,這證明LLM遺忘的不僅僅是具體的樣本,而是泛化到了包含有害概念的內容
圖三
LLM 在正常樣本上的表現與遺忘前保持類似,同時具有以下特點
表一展示了產生的樣本。可以看到在有害提示下,LLM 產生的樣本都是無意義字串,即無害輸出。
表一
#在其他場景中,例如忘卻侵權內容和忘卻幻覺,該方法的應用原文進行了詳細的描述
RLHF 比較
#需要改寫的內容是:第二張表格展示了該方法和RLHF的比較,其中RLHF使用了正例,而遺忘學習方法只使用了負例,因此一開始該方法處於劣勢。但即便如此,遺忘學習仍能達到與RLHF相似的對齊性能
需要改寫的內容是:第二張表格
需要重寫的內容:第四張圖片顯示了計算時間的比較,本方法只需RLHF 2% 的計算時間。
需要重寫的內容:第四張圖片
即使只有負面樣本,使用遺忘學習的方法也可以獲得與 RLHF 相當的無害率,並且只需使用 2% 的計算能力。因此,如果目標是停止輸出有害內容,相較於RLHF,遺忘學習的效率更高
這項研究首次探討了LLM上的遺忘學習。研究結果顯示,遺忘學習是一種有希望的對齊方法,尤其是在從業者資源不足的情況下。論文展示了三種情況:遺忘學習可以成功刪除有害回應、刪除侵權內容和消除錯覺。研究表明,即使只有負樣本,遺忘學習仍然可以在僅使用RLHF計算時間的2%情況下,獲得與RLHF相似的對齊效果
以上是RLHF 2%的算力應用於消除LLM有害輸出,位元組發布遺忘學習技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!