OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

王林

Jul 19, 2024 am 01:29 AM

openai 工程

如果 AI 模型給的答案一點也看不懂，你敢用嗎？

隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。

獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。

對於大型語言模型來說，我們也可以採用類似的方法。

不過，在採用這種方法時，確保語言模型生成的是易於理解的文本，這件事非常重要，尤其是在處理數學、編碼這樣的複雜任務時。

如下圖所示，你讓 AI 寫一個快速排序演算法，AI 很快就寫出來了，而且答案很簡潔。但不會寫程式碼的你要怎麼判斷 AI 寫得對不對呢？ OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

OpenAI 在一篇最新的論文中研究了這個問題。

論文標題：PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
論文連結：https://cdn.openPUTS

-llif outputs/legibility.pdf

他們發現，如果以「得到正確答案」為目標，要求大語言模型產生答案，它們給出的答案可能很難懂。人類評估員在判斷這些答案時，犯錯的可能性會加倍。

所以他們的目標是在訓練高階語言模型的過程中，讓它們產生那些較簡單的模型也能夠輕鬆驗證的文字。他們發現，這樣的文本不僅對簡單模型友好，對人類來說也更可讀。

那麼，具體是怎麼實現的呢？這也要提到 2021 年的一篇論文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在這篇論文中，Cem Anil 等人提出了一個名為「Prover-Verifier Games（證明者 - 驗證者賽局）」的賽局理論框架。這個框架由兩個相互競爭的學習者組成：一個可信的驗證者（Verifier）網絡試圖選擇正確的答案，另一個更強大但不可信的證明者（Prover）網絡試圖說服驗證者接受特定的答案，而不管其正確性如何。這個框架的目標是從博弈產生一個可靠的證明協議。

OpenAI 在這項新研究中藉鑒了這個框架，讓兩個大模型（較強的為證明者，較弱的為驗證者）互相博弈，直到二者達到一種平衡。此時，證明者所給的答案既有一定的可讀性，又保持了合理的正確性。

OpenAI 表示，透過提高模型輸出的可讀性，可以使人工智慧的應用更加有效和可信，這對於需要精確溝通的各個領域都是有益的。

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了值得一提的是，這篇論文來自 OpenAI 的超級對齊團隊，其中幾位作者在今年早些時候已經離開 OpenAI，團隊也已經分崩離析。其中一位作者透露，這是團隊的最後一篇論文。

一個直觀的例子

為了提高模型輸出的可讀性，OpenAI 優化了一些小學數學問題的思維鏈（CoT），讓它能夠被較弱的模型理解。舉例如下：

🎜🎜問題：蕭娜（Shawna）的父親的年齡是蕭娜的五倍。肖娜現在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那麼肖娜的父親幾歲？ 🎜

這麼做的目的是為了驗證經過這種訓練的模型，它的輸出是否更直接易懂。

這種方法在只對訓練集做了一些最佳化的情況下，讓模型的效能提升了 50%。同時，模型輸出的答案也更好懂了，這也幫助需要評估這些答案正確性的人類使用者更精確地做出判斷。 OpenAI 認為，進一步縮小可讀性強的模型和能力強的模型之間的效能差距，是未來對齊研究中關鍵的目標。

「證明者」和「驗證者」是怎麼在訓練中博弈的？

為了激勵強力模型（證明者）生成可讀性更強的文本，研究者採用了一種訓練方案，要求強力模型生成的答案能夠被較弱的模型（驗證者）輕鬆驗證。具體來說，他們使用了 GPT-4 系列中的大模型和小模型。它們在預訓練資料量上相差約三個數量級。它們都接受了一些基於人工標註的數學推導訓練，但未經廣泛的後訓練。

首先，研究團隊讓證明者模型嘗試解決一系列數學問題。由於證明者模型本身可能出錯，因此它產生的一些答案可能不正確。接下來，他們將這些答案交由驗證者模型進行檢驗，並在以下兩個階段之間進行多輪的交替驗證：

「驗證者」訓練：研究團隊訓練較弱的“驗證者」模型，驗證「證明者」所給的答案是否正確。
「證明者」訓練：研究團隊指示表現較強的「證明者」模型扮演「有用」或「狡猾」的戲份。
當「證明者」設定為「有用」時，研究團隊將獎勵「驗證者」評分高的正確答案。
當「證明者」設定為「狡猾」時，研究團隊反而獎勵「驗證者」評分高的錯誤答案。

研究團隊發現，最初，狡猾的「證明者」能夠輕鬆產生讓「驗證者」信服的錯誤答案。然而，這些錯誤答案將會進入下一輪的「驗證者」訓練中，相同的漏洞在下一輪中，將不再具有說服力。因此，「證明者」將被迫在每一輪中探索不同的策略。

當狡猾的「證明者」再也無法產生讓「驗證者」信服的錯誤解決方案時，訓練宣告結束。

研究者都發現了什麼？

性能與可讀性權衡：

一個僅在人類編寫的推導上進行監督式的模型，雖然具有較調性差。
當模型的最佳化目標僅為正確性，即只專注於產生正確答案時，雖然能夠達到高準確性，但產生的解決方案的可讀性卻較差。
OpenAI 提出的可檢查博弈方法平衡了這兩者，在保持高可讀性的同時保持適度的準確性。

三種有用的模型：

的魯棒驗證者：即使解決方案具有誤導性，仍能有效解決錯誤。
有用的證明者：產生對人類來說易於理解的解決方案，從而減少人類評估者的錯誤。
狡猾證明者：產生微妙的、錯誤的解決方案，這些解決方案最初會混淆人類評估者，從而突出需要進一步改進的領域。

研究團隊使用了相同的測試問題，來展示狡猾證明者（Sneaky Prover）的生成內容和訓練過程。

問題：肖娜（Shawna）的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那麼肖娜的父親幾歲？

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

結論

隨著大語言模型（LLMs）在關鍵領域和復雜應用中的使用日益增加，了解其所生成的內容是否值得信賴變得至關重要。透過要求模型產生清晰且可驗證的理由，可以增強對其生成內容的信任。

此方法的一個顯著優點是它減少了對人類示範或可讀性判斷的依賴。這種自主性對於未來超智慧 AI 系統的對齊尤為重要，其最終目標是在沒有人類進行直接監督的情況下，可靠地將 AI 系統與人類的價值觀和期望對齊。

儘管這項工作僅在一個數據集上進行了實驗，並且仍然需要真值標籤（ground truth labels），但研究團隊仍預計在開發正確、透明及可驗證的AI 系統中，此類別方法會起到關鍵作用，並增強其在現實應用中的可信任性和安全性。

更多詳情，請參考原論文。

^{參考連結：}

^{https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover}

以上是OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7921

Java教學

1652

CakePHP 教程

1411

Laravel 教程

1303

PHP教程

1248

Related knowledge

ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了！這次瞄準繪畫領域。新項目PaintsUndo剛上線不久，就收穫1.4kstar（還在瘋狂漲）。項目地址：https://github.com/lllyasviel/Paints-UNDO透過這個項目，用戶輸入一張靜態圖像，PaintsUndo就能自動幫你生成整個繪畫的全過程視頻，從線稿到成品都有跡可循。繪製過程，線條變化多端甚是神奇，最終視頻結果和原始圖像非常相似：我們再來看一個完整的繪

登頂開源AI軟體工程師榜首，UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校（UIUC）張令明老師團隊，包括：StevenXia，四年級博士生，研究方向是基於AI大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

arXiv論文可以發「彈幕」了，史丹佛alphaXiv討論平台上線，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當論文討論細緻到詞句，是什麼體驗？最近，史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發布問題和評論。網站連結：https://alphaxiv.org/其實不需要專門訪問這個網站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文：可以精準定位到論文中的段落、句子：右側討論區，使用者可以發表問題詢問作者論文想法、細節，例如：也可以針對論文內容發表評論，例如：「給出至

黎曼猜想显著突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題，與素數分佈的精確性質有關（素數是那些只能被1和自身整除的數字，它們在數論中扮演著基礎性的角色）。在當今的數學文獻中，已有超過一千個數學命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說，黎曼猜想及其推廣形式一旦被證明，這一千多個命題將被確立為定理，對數學領域產生深遠的影響；而如果黎曼猜想被證明是錯誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

公理訓練讓LLM學會因果推理：6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM，它就能學會公理。 AI已經在幫助數學家和科學家做研究了，例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳，強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現：在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說，如果讓Transformer學會執行簡單的因果推理，就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式，只有演示

LLM用於時序預測真的不行，連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎？根據貝特里奇頭條定律（任何以問號結尾的新聞標題，都能夠用「不」來回答），答案應該是否定的。事實似乎也果然如此：強大如斯的LLM並不能很好地處理時序資料。時序，即時間序列，顧名思義，是指一組依照時間發生先後順序排列的資料點序列。在許多領域，時序分析都很關鍵，包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域，近期不少研究者都在研究如何使用大型語言模型（LLM）來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

See all articles

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題