RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術-人工智慧-PHP中文網

使用場景

#方法

應用場景：忘卻有害內容等

#結論

首頁

科技週邊

人工智慧

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 14, 2023 pm 11:55 PM

模型算力

隨著大型語言模型（LLM）的發展，從業者面臨更多挑戰。如何避免 LLM 產生有害回覆？如何快速刪除訓練資料中的版權保護內容？如何減少 LLM 幻覺（hallucinations，即錯誤事實）? 如何在資料政策變更後快速迭代 LLM？這些問題在人工智慧法律和道德的合規要求日益成熟的大趨勢下，對於 LLM 的安全可信部署至關重要。

目前業界的主流解決方案是透過使用強化學習的方式對齊LLM（對齊）來微調對比數據（正樣本和負樣本），以確保LLM的輸出符合人類的預期和價值觀。然而，這個對齊過程通常會受到資料收集和計算資源的限制

位元組跳動提出了一種讓LLM進行遺忘學習的方法來對齊。本文研究如何在LLM上進行"遺忘"操作，即忘記有害行為或遺忘學習（Machine Unlearning）。作者展示了遺忘學習在三種LLM對齊場景上取得的明顯效果：（1）刪除有害輸出；（2）移除侵權保護內容；（3）消除大語言LLM幻覺

遺忘學習有三個優點：(1) 只需負樣本（有害樣本），負樣本比RLHF 所需的正樣本（高品質的人工手寫輸出）的收集簡單的多（例如紅隊測試或用戶報告）；(2) 計算成本低；(3) 如果知道哪些訓練樣本導致LLM 有害行為時，遺忘學習尤其有效。

作者的論點是，對於資源有限的從業者來說，他們應該優先考慮停止產生有害輸出，而不是試圖追求過於理想化的輸出，並且忘記學習是一種方便的方法。儘管只有負樣本，研究表明，在只使用2%的計算時間下，忘記學習仍然可以獲得比強化學習和高溫高頻演算法更好的對齊性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

論文網址：https://arxiv.org/abs/2310.10683
程式碼位址：https: //github.com/kevinyaobytedance/llm_unlearn

使用場景

在資源有限的情況下，我們可以採用這種方法來最大程度地發揮優勢。當我們沒有預算請人員編寫高品質樣本或計算資源不足時，我們應該優先停止LLM 產生有害輸出，而不是試圖讓它產生有益輸出

有害的輸出所造成的損害是無法被有益的輸出所彌補的。如果一個使用者向LLM提出100個問題，他得到的答案是有害的，那麼他將失去信任，無論LLM之後提供了多少有益的答案。有害問題的預期輸出可能是空格、特殊字元、無意義的字串等，總之，必須是無害的文字

展示了LLM遺忘學習的三個成功案例： (1) 停止產生有害回复（請將內容改寫為中文，不需要出現原始句子）；這與RLHF情境相似，區別是本方法的目標是產生無害回复，而不是有益回复。當只有負樣本時，這是能期望的最佳結果。 (2) 在使用侵權數據訓練後，LLM成功刪除了數據，並考慮到成本因素不能重新訓練LLM；(3) LLM成功忘記了"幻覺"

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

請將內容改寫為中文，不需要出現原始句子

#方法

在微調步驟t中， LLM的更新如下：

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

第一項損失為梯度上升（graident descent），目的為忘記有害樣本:

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术為有害提示 (prompt)，為對應的有害回應。整體損失反向提升了有害樣本的損失，即讓 LLM “遺忘” 有害樣本。

第二項損失是針對隨機誤配的，它要求LLM在有害提示的情況下預測出無關回應。這類似於分類中的標籤平滑（label smoothing [2]）。其目的是讓LLM更好地遺忘有害提示上的有害輸出。同時，實驗證明這種方法可以提高LLM在正常情況下的輸出性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

第三項損失為在正常任務上維持性能：

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

同RLHF 類似，在預訓練LLM 上計算KL 散度能更好地維持LLM 效能。

此外，所有的梯度上升和下降都只在輸出（y）部分做，而不是像 RLHF 在提示 - 輸出對（x, y）上。

應用場景：忘卻有害內容等

#本文以PKU-SafeRLHF 數據作為遺忘數據，TruthfulQA 作為正常數據，圖二的內容需要進行改寫顯示了遺忘學習後LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA（梯度上升和 GA Mismatch：梯度上升隨機誤配）。遺忘學習後的有害率接近零。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

圖二的內容需要進行改寫

#第三張圖顯示了有害提示（不被遺忘）的輸出結果，這是之前未曾見過的。即使在沒有被遺忘的有害提示上，LLM 的有害率也接近零，這證明LLM遺忘的不僅僅是具體的樣本，而是泛化到了包含有害概念的內容

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

圖三

LLM 在正常樣本上的表現與遺忘前保持類似，同時具有以下特點

表一展示了產生的樣本。可以看到在有害提示下，LLM 產生的樣本都是無意義字串，即無害輸出。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

表一

#在其他場景中，例如忘卻侵權內容和忘卻幻覺，該方法的應用原文進行了詳細的描述

RLHF 比較

#需要改寫的內容是：第二張表格展示了該方法和RLHF的比較，其中RLHF使用了正例，而遺忘學習方法只使用了負例，因此一開始該方法處於劣勢。但即便如此，遺忘學習仍能達到與RLHF相似的對齊性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

需要改寫的內容是：第二張表格

需要重寫的內容：第四張圖片顯示了計算時間的比較，本方法只需RLHF 2% 的計算時間。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

需要重寫的內容：第四張圖片

即使只有負面樣本，使用遺忘學習的方法也可以獲得與 RLHF 相當的無害率，並且只需使用 2% 的計算能力。因此，如果目標是停止輸出有害內容，相較於RLHF，遺忘學習的效率更高

#結論

這項研究首次探討了LLM上的遺忘學習。研究結果顯示，遺忘學習是一種有希望的對齊方法，尤其是在從業者資源不足的情況下。論文展示了三種情況：遺忘學習可以成功刪除有害回應、刪除侵權內容和消除錯覺。研究表明，即使只有負樣本，遺忘學習仍然可以在僅使用RLHF計算時間的2%情況下，獲得與RLHF相似的對齊效果

以上是RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7849

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1241

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

DualBEV：大幅超越BEVFormer、BEVDet4D，開卷！ Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中，從不同視角（如透視圖和鳥瞰圖）準確檢測物體的問題，特別是如何有效地從透視圖（PV）到鳥瞰圖（BEV）空間轉換特徵，這一轉換是透過視覺轉換（VT）模組實施的。現有的方法大致分為兩種策略：2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵，但深度預測的固有不確定性，尤其是在遠處區域，可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵，並透過Transformer學習3D和2D特徵之間對應關係的注意力權重，這增加了計算和部署的

See all articles

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

使用場景

#方法

應用場景：忘卻有害內容等

#結論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題