OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了
如果 AI 模型給的答案一點也看不懂,你敢用嗎?


論文標題:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS 論文連結:https://cdn.openPUTS
他們發現,如果以「得到正確答案」為目標,要求大語言模型產生答案,它們給出的答案可能很難懂。人類評估員在判斷這些答案時,犯錯的可能性會加倍。
所以他們的目標是在訓練高階語言模型的過程中,讓它們產生那些較簡單的模型也能夠輕鬆驗證的文字。他們發現,這樣的文本不僅對簡單模型友好,對人類來說也更可讀。
那麼,具體是怎麼實現的呢?這也要提到 2021 年的一篇論文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在這篇論文中,Cem Anil 等人提出了一個名為「Prover-Verifier Games(證明者 - 驗證者賽局)」的賽局理論框架。這個框架由兩個相互競爭的學習者組成:一個可信的驗證者(Verifier)網絡試圖選擇正確的答案,另一個更強大但不可信的證明者(Prover)網絡試圖說服驗證者接受特定的答案,而不管其正確性如何。這個框架的目標是從博弈產生一個可靠的證明協議。
OpenAI 在這項新研究中藉鑒了這個框架,讓兩個大模型(較強的為證明者,較弱的為驗證者)互相博弈,直到二者達到一種平衡。此時,證明者所給的答案既有一定的可讀性,又保持了合理的正確性。
OpenAI 表示,透過提高模型輸出的可讀性,可以使人工智慧的應用更加有效和可信,這對於需要精確溝通的各個領域都是有益的。
值得一提的是,這篇論文來自 OpenAI 的超級對齊團隊,其中幾位作者在今年早些時候已經離開 OpenAI,團隊也已經分崩離析。其中一位作者透露,這是團隊的最後一篇論文。
為了提高模型輸出的可讀性,OpenAI 優化了一些小學數學問題的思維鏈(CoT),讓它能夠被較弱的模型理解。舉例如下:
🎜🎜問題:蕭娜(Shawna)的父親的年齡是蕭娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親幾歲? 🎜


「驗證者」訓練:研究團隊訓練較弱的“驗證者」模型,驗證「證明者」所給的答案是否正確。 「證明者」訓練:研究團隊指示表現較強的「證明者」模型扮演「有用」或「狡猾」的戲份。 當「證明者」設定為「有用」時,研究團隊將獎勵「驗證者」評分高的正確答案。 當「證明者」設定為「狡猾」時,研究團隊反而獎勵「驗證者」評分高的錯誤答案。

一個僅在人類編寫的推導上進行監督式的模型,雖然具有較調性差。 當模型的最佳化目標僅為正確性,即只專注於產生正確答案時,雖然能夠達到高準確性,但產生的解決方案的可讀性卻較差。 OpenAI 提出的可檢查博弈方法平衡了這兩者,在保持高可讀性的同時保持適度的準確性。
的魯棒驗證者:即使解決方案具有誤導性,仍能有效解決錯誤。 有用的證明者:產生對人類來說易於理解的解決方案,從而減少人類評估者的錯誤。 狡猾證明者:產生微妙的、錯誤的解決方案,這些解決方案最初會混淆人類評估者,從而突出需要進一步改進的領域。
問題:肖娜(Shawna)的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭(Aliya)的三倍。如果阿莉婭 3 歲,那麼肖娜的父親幾歲?
以上是OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序
