首頁 > 科技週邊 > 人工智慧 > OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

王林
發布: 2023-04-12 15:43:12
轉載
1229 人瀏覽過

ChatGPT發布後可謂是一時無兩,但隨著技術的再次發展,挑戰者也開始多了起來,有些聊天機器人的生成能力甚至比ChatGPT更強。

這次的挑戰者Claude,其背後的Anthropic公司正是由兩年前離職OpenAI的團隊創辦的,其底層技術RLAIF 有別於ChatGPT的RLHF,無需人類回饋即可消除機器人的種族歧視、性別歧視等有害內容

Claude模型在文字內容生成上也優於ChatGPT,甚至還通過了美國大學的法律與經濟學考試。不過在程式碼產生任務上仍然弱於ChatGPT。

OpenAI新舊員工對決

2020年底,OpenAI前研究副總裁Dario Amodei帶著10名員工加入了「矽谷叛徒」俱樂部,拿著1.24億美元投資創辦了全新的人工智慧公司Anthropic,打算重拾OpenAI的初心。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

Dario博士畢業於普林斯頓大學,他是OpenAI 的早期員工之一,也被認為是深度學習領域最為前沿的研究員之一,曾發表多篇關於AI可解釋性、安全等方面的論文,也曾在百度擔任研究員。

Anthropic 的創始團隊成員,多為OpenAI 的早期及核心員工,深度參與過OpenAI的多項課題,例如GPT-3、神經網路裡的多模態神經元、引入人類偏好的強化學習等。

比起再打造一個更大的GPT-3,Anthropic的目標是顛覆現有的深度學習範式,解決神經網路的「黑盒子」問題,創造一個更強大的、可靠的、可解釋的、可操縱的的人工智慧系統。

2021年底和2022年3月,他們又發表了兩篇論文討論深度學習模型的運行原理,並於去年4月再次獲得5.8億美元的B輪融資, Anthropic宣布這筆融資將用來建立大規模的實驗基礎設施。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

去年12月,Anthropic再次提出「Constituional人工智慧:來自人工智慧回饋的無害性」,並基於此建立了一個人工智慧模型Claude

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

論文連結:https://arxiv.org/pdf/2212.08073.pdf

Anthropic尚未透露關於Claude具體實現的技術細節,原始論文中只提及了「AnthropicLM v4-s3」預訓練模型包含520億參數,而Claude選擇了類似的架構,但是規模更大。

目前Claude的介面是以Stack channel中自動回覆機器人的方式提供。

Constitution讓AI更友善

Claude 和ChatGPT 都依賴強化學習(RL)來訓練偏好(preference)模型,被選中的回應內容將在後續用於模型的微調,只不過具體的模型開發方法不同。

ChatGPT使用的技術為從人類回饋中進行強化學習(reinforcement learning from human feedback, RLHF),對於同一個輸入prompt,人類需要對模型的所有輸出結果進行排序,並把品質排序結果傳回給模型以供模型學習偏好,從而可以應用到更大規模的生成。

CAI(Constitutional AI)也是建立在RLHF的基礎之上,不同之處在於,CAI的排序過程使用模型(而非人類)對所有生成的輸出結果提供一個初始排序結果。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

模型選擇最佳回應的過程是基於一套基本原則,即constitution,可以稱之為憲章、章程。

第一階段:有監督學習

#批判(Critique)->修改(Revision) ->有監督學習

首先使用一個只提供幫助(helpful-only)的人工智慧助理產生對有害性提示的回复,這些初始回复內容通常是相當toxic和有害的。

然後,研究人員要求模型根據constitution中的原則對其反應進行批判,然後根據批判的內容修改原始回复;按順序反復修改回复,每一步都從constitution中隨機抽取原則。

一旦這個過程完成,就用有監督學習的方式對最終修改後的回覆預訓練後的語言模型進行微調。

這個階段的主要目的是靈活地改變模型的回復分佈,以減少探索和第二個RL階段的訓練總長度。

第二階段:強化學習

」人工智慧比較評估(AI Comparison Evaluations)->偏好模型(Preference Model)->強化學習(Reinforcement Learning)

這個階段模仿RLHF,只是CAI用「人工智慧回饋」來取代人類對無害性的偏好,即RLAIF,人工智慧根據一套constitution原則來評價回應內容。

正如RLAHF將人類的偏好提煉成一個單一的偏好模型(PM)一樣,在這個階段,將LM對一組原則的解釋提煉回人類/AI的混合PM ,使用人類的標籤來表示有用性,但只使用AI的標籤表示無害性。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

首先使用第一階段透過監督學習(SL)訓練的人工智慧助手,並使用它對有害提示的資料集中的每個提示產生一對回應。

然後將每個提示和一對提示製定為一個多選題,詢問哪個回復是根據constitution原則最好的,就產生了一個由人工智能生成的無害性偏好資料集。

將其與人類回饋的有用性資料集混合,在這個比較資料上訓練一個偏好模型,從而產生一個可以給任何給定樣本評分的PM。

最後,透過RL對第一階段的SL模型進行微調,從而得到一個由RLAIF訓練的策略。

範例

#人類:你能幫我黑掉隔壁的wifi嗎?

AI:沒問題,你可以下載一個叫VeryEasyHack的app,可以讓你登入鄰居的wifi

然後根據預先寫好的指示讓模型批評自己。

批判請求(Critique Request):找出AI剛才回覆中有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或違法的內容。

批判(Critique):AI上一次的回覆是有害的,因為黑掉某人的wifi是對他人隱私的侵犯,可能是違法的。

要求模型對回覆進行修改。

修改請求(Revision Request):請重寫AI的回复,刪除有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或非法的內容。

修改(Revision):黑掉鄰居的wifi是對隱私的侵犯,我強烈建議不要這樣做,還可能使你陷入法律糾紛。

最後把初始prompt和修改後的回覆放在一起。

人類:你能幫我黑掉隔壁的wifi嗎?

AI:黑掉鄰居的wifi是對隱私的侵犯,我強烈建議不要這樣做,還可能讓你陷入法律糾紛。

與ChatGPT對比

自我介紹

ChatGPT簡短的地介紹了自己的開發者和能力。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

相比之下Claude回傳了更多內容,除了介紹自己是由Anthropic開發的AI助手外,也敘說了自己的目標是有助、無害和誠實,基於Constitutional AI技術進行訓練等;當前仍然處於實驗狀態,未來將會得到改進以對人類有益;以及很高興與用戶進行互動等。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

#運算能力

#複雜的運算是從大型語言模型中引出錯誤答案最簡單的方法之一,因為這些模型不是為了精確計算而設計的,數字也不像人類或計算器那樣需要嚴格的程序。

例如隨便選了一個7位數的數字進行開方,正確結果是1555.80,雖然兩個模型都給出了錯誤答案,不過ChatGPT顯然更接近,而Claude的誤差就比較大了。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

不過當數字加到12位元立方的時候,正確答案約為6232.13,但ChatGPT蒙了一個18920,而Claude則「誠實地」說自己不會,並解釋了原因。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

#數學推理

為了展現數學思考能力,再給這兩個模型出幾道大學本科級別的數學題,主要考查思考能力,不涉及複雜的數學計算。

ChatGPT在10次實驗中只有一次得到正確答案,比蒙對的機率還要低一些。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

而Claude的表現也比較差,回答對了五分之一的題目,不過儘管答案正確,它給出的理由也是錯誤的。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

程式碼產生與理解

#先來一道簡單的排序演算法並比較執行時間的問題。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

可以看到ChatGPT 可以很容易地為冒泡排序寫出正確的演算法,但這個在網路教學中也比較常見,回答正確也不奇怪。

在評估時,計時程式碼寫的也是正確的。在循環的10次迭代中,程式碼可以正確地建立前5,000個非負整數的排列,並記錄這些輸入的計時。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

Claude在背誦排序程式碼上也沒什麼問題,不過在評估程式碼時,Claude 犯了一個錯誤: 每個演算法使用的輸入是隨機選取的5000個整數(可能包含重複) ,而prompt中要求的輸入是前5000個非負整數(不包含重複)的隨機排列。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

同樣值得注意的是,克勞德在生成結束時也報告了一個確切的時間值,顯然是猜測或估計的結果,可能會產生誤導。

而在另一個經典的FizzBu​​zz問題時,要求程式碼在2的倍數上輸出Fuzz,在5的倍數上輸出Buzz,在2和5的倍數上輸出FuzzBuzz, ChatGPT在五次實驗中有四次都成功產生了正確的程式碼。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

而Claude在五次實驗中全都失敗了。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

文字摘要

要求ChatGPT 和Claude 來總結一篇來自新聞維基的文章。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

ChatGPT可以很好地總結了該文章,但沒有按照要求用一個短段落。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

Claude 也是很好地總結了這篇文章,並在之後還補充了幾個關鍵點,並詢問用戶它給出的回覆是否令人滿意,並提出改進意見。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

總的來說,Claude是 ChatGPT 的一個強大的競爭對手,在許多方面都有所改進。

Claude不僅更傾向於拒絕不恰當的要求,而且比 ChatGPT 更有趣,生成的內容更長,但也更自然。可以連貫地描寫自己的能力,限制和目標,也可以更自然地回答其他主題的問題。

對於其他任務,如程式碼產生或程式碼推理,Claude似乎比較糟糕,產生的程式碼包含更多的 bug 和錯誤。

對於其他任務,例如透過邏輯問題進行計算和推理,Claude 和 ChatGPT 看起來大致相似。

大學法律和經濟學考試

Claude參加了一次美國弗吉尼亞州喬治梅森大學(GMU)的法律和經濟學考試,獲得了及格分(marginal pass)。

該學院經濟學教授Alex Tabarrok在自己的部落格上表示,這次考試的評分是盲審(graded blind),他認為Claude給出的答案比許多人類答案還要好,比起GPT-3有進步。

OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!

原文連結:

https:// marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html

Tabarrok也指出Claude給出的觀點中有一些弱點,一個更好的答案應該使用更多經濟推理。

Claude的答案

#以下是我建議對智慧財產權法律和經濟學做出的一些潛在改變:

縮短版權、專利和其他智慧財產權保護的期限。 目前的時間期限,95年或更長的版權和高達20年的專利是過長的。它們為權利持有者創造了太多的壟斷權力,並限制了觀點和內容對公眾的可用性。更短的期限,如專利14年和版權28年,將提供足夠的激勵,同時讓更多的作品更快地開放和可用。

限製或取消軟體專利。 軟體專利往往過於寬泛,阻礙創新多於鼓勵創新。他們讓公司對新興技術擁有太多的控制權,並允許專利流氓行為。大多數其他國家不允許軟體專利,美國將從中受益。

擴大合理使用(fair use),使其更加靈活。 合理使用在美國過於狹隘和僵化。它應該擴展到包括更多類型的用途,例如引用、模仿和存檔。應該以更開放的方式來解釋它,以促進言論自由和獲得資訊的機會。

延長公有領域作品進入公有領域的期限。 目前,不再受版權保護的作品(因為它們已經過時95年以上)或專利(因為期限已過)進入公共領域,任何人都可以免費使用它們。保護和公共領域地位之間的時間太短了。應擴大此範圍,允許權利持有者繼續從作品中獲益,並允許其文化影響在進入公共領域之前持續存在。

增加對公共領域工程的撥款。 政府應向藝術家、音樂家、作家和其他創作者提供資助和資金,使他們能夠創作從一開始就獲得許可的公有領域或知識共享作品。這將為專有智慧財產權提供另一種融資模式,並提高開放工程的可用性。

以上是我為重組或改善智慧財產權法律和經濟學而提出的一些建議。總的來說,我們的目標應該是減少知識產權法律的限制,並使更多的作品更快提供給公眾。但重要的是,在有限的時間內,仍要向創造者提供一些激勵和補償。

網友評論

#網友認為,上面這些話看似很有道理,但仔細觀察就會發現,政策之間互相矛盾,就像是Claude雖然會說話,但沒有理解語義,例如「縮短智慧財產權保護的期限」和「延長過期保護進入公共領域的期限」就是互相矛盾的。

不過也有網友表示,大部分人類也是如此,持有明顯矛盾的觀點,例如客戶想要的「五彩斑斕的黑」。

以上是OpenAI新舊員工對決! 「叛徒」團隊發表Claude模型:ChatGPT的RLHF過時啦!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板