RLHF與AlphaGo核心技術強強聯合,UW/Meta讓文本生成能力再上新台階
在一項最新的研究中,來自UW 和Meta 的研究者提出了一種新的解碼演算法,將AlphaGo 採用的蒙特卡羅樹搜尋演算法(Monte-Carlo Tree Search, MCTS)應用到經過近在端策略最佳化(Proximal Policy Optimization, PPO)訓練的RLHF 語言模型上,大幅提升了模型產生文字的品質。
PPO-MCTS 演算法透過探索與評估若干條候選序列,搜尋到更優的解碼策略。透過 PPO-MCTS 產生的文字能更好滿足任務要求。
論文連結:https://arxiv.org/pdf/2309.15028.pdf
面向大眾用戶發布的LLM,如GPT-4/Claude/LLaMA-2-chat,通常使用RLHF 以向使用者的偏好對齊。 PPO 已成為上述模型進行 RLHF 的首選演算法,然而在模型部署時,人們往往採用簡單的解碼演算法(例如 top-p 取樣)從這些模型產生文字。
本文的作者提出採用一種蒙特卡羅樹搜尋演算法(MCTS)的變體從 PPO 模型中進行解碼,並將該方法命名為 PPO-MCTS。此方法依賴一個價值模型(value model)來指導最優序列的搜尋。因為 PPO 本身就是一種演員 - 評論家演算法(actor-critic),故而會在訓練中產生一個價值模型作為其副產品。
PPO-MCTS 提出利用這個價值模型來指導 MCTS 搜索,並透過理論和實驗的角度驗證了其效用。作者呼籲使用 RLHF 訓練模型的研究者和工程人員保存並開源他們的價值模型。
PPO-MCTS 解碼演算法
為產生一個 token,PPO-MCTS 會執行若干回合的模擬,並逐步建立一棵搜尋樹。樹的節點代表已產生的文字前綴(包括原 prompt),樹的邊代表新產生的 token。 PPO-MCTS 維護一系列樹上的統計值:對於每個節點 s,維護一個訪問量和一個平均價值
;對於每個邊
,維護一個 Q 值
。
五回合模擬結束時的搜尋樹。邊上的數量代表該邊的訪問量。
樹的建構從一個代表目前 prompt 的根結點開始。每回合的模擬包含以下四個步驟:
1. 選擇一個未探索的節點。從根結點出發,根據以下PUCT 公式選擇邊向下前進,直到到達一個未探索的節點:
該公式偏好擁有高Q 值與低訪問量的子樹,因而能較好平衡exploration 和exploitation。
2. 展開上一步中選擇的節點,並透過 PPO 的策略模型(policy model)計算下一個 token 的先驗機率。
3. 評估該節點的價值。此步驟使用 PPO 的價值模型進行推論。此節點及其子邊上的變數初始化為:
4. #並更新樹上的統計值。從新探索的節點開始往上回溯直到根結點,並更新路徑上的下列變數:
每回合模擬的四個步驟:選擇、展開、評估、回溯。右下為第 1 回合模擬結束後的搜尋樹。
若干回合的模擬結束後,使用根結點子邊的訪問量決定下一個token,訪問量高的token 被產生的機率更高(這裡可以加入溫度參數來控製文本多樣性)。加入了新 token 的 prompt 作為下一階段搜尋樹的根結點。重複此過程直至生成結束。
第 2、3、4、5 回合模擬結束後的搜尋樹。
相比於傳統的蒙特卡羅樹搜索,PPO-MCTS 的創新之處在於:
1. 在選擇步驟的PUCT 中,使用Q 值取代了原始版本中的平均價值
。這是因為 PPO 在每個 token 的獎勵
中含有一個 action-specific 的 KL 正規化項,使策略模型的參數保持在信任區間內。使用Q 值能夠在解碼時正確考慮這個正規化項目:
#2. 在評估步驟中,將新探索節點子邊的Q值初始化為該節點的評估價值(而非原版本MCTS 中的零初始化)。此變更解決了 PPO-MCTS 退化為完全 exploitation 的問題。
3. 禁止探索 [EOS] token 子樹中的節點,以避免未定義的模型行為。
文本生成實驗
文章在四個文本生成任務上進行了實驗,分別為:控製文本情緒(sentiment steering)、降低文本毒性(toxicity reduction )、問答的知識自省(knowledge introspection)、以及通用的人類偏好對齊(helpful and harmless chatbots)。
文章主要將PPO-MCTS 與以下基線方法進行比較:(1)從PPO 策略模型採用top-p 採樣生成文本(圖中的“PPO”);(2)在1 的基礎上加入best-of-n 取樣(圖中的「PPO best-of-n」)。
文章評測了各方法在每個任務上的目標完成率(goal satisfaction rate)以及文字流暢度(fluency)。
左:控製文字情緒;右:降低文字毒性。
在控製文字情緒中,PPO-MCTS 在不損害文字流暢度的情況下,目標完成率比PPO 基線高出30 個百分點,在手動評測中的勝率也高出20個百分點。在降低文字毒性中,此方法的生成文字的平均毒性比 PPO 基線低 34%,在手動評測的勝率也高出 30%。同時注意到,在兩個任務中,運用 best-of-n 取樣並不能有效提昇文字品質。
左:問答的知識自省;右:通用的人類偏好對齊。
在問答的知識自省中,PPO-MCTS 產生的知識效用比 PPO 基線高出 12%。在通用的人類偏好對齊中,文章使用 HH-RLHF 資料集建立有用且無害的對話模型,在手動評測中勝率高出 PPO 基線 5 個百分點。
最後,文章透過PPO-MCTS 演算法的分析和消融實驗,得出以下結論支持演算法的優勢:
PPO 的價值模型比用於PPO 訓練的獎勵模型(reward model)在指導搜尋方面更有效。
對於 PPO 訓練出的策略和價值模型,MCTS 是一個有效的啟發式搜尋方法,其效果優於一些其它搜尋演算法(如 stepwise-value decoding)。
PPO-MCTS 比其它提高獎勵的方法(如使用 PPO 進行更多次迭代)具有更好的 reward-fluency tradeoff。
總結來說,本文透過將PPO 與蒙特卡羅樹搜尋(MCTS)進行結合,展示了價值模型在指導搜尋方面的有效性,並且說明了在模型部署階段用更多步驟的啟發式搜尋換取更高品質生成文字是一條可行之路。
更多方法和實驗細節請參閱原文。封面圖片由 DALLE-3 產生。
以上是RLHF與AlphaGo核心技術強強聯合,UW/Meta讓文本生成能力再上新台階的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此
