目錄
真負(TN)
假正(FP)
過程監督
對齊優勢明顯
OpenAI發布80萬人工標註資料集
網友熱評
首頁 科技週邊 人工智慧 GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

Jun 03, 2023 pm 12:25 PM
gpt-4 數學

ChatGPT自發布以來,數學能力飽受批評。

就連「數學天才」陶哲軒曾表示,GPT-4在自己的數學專業領域,並沒有太多的增值。

怎麼辦,就一直讓ChatGPT做個「數學智障」麼?

OpenAI在努力-為了提升GPT-4的數學推理能力,OpenAI團隊用「過程監督」(PRM)訓練模型。

讓我們一步一步驗證!

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf

論文中,研究人員訓練模型透過獎勵每一個正確的推理步驟,即「過程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學問題解決方面取得最新SOTA。

具體來講, PRM解決了MATH測試集代表性子集中78.2%的問題。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

此外,OpenAI發現「過程監督」在對齊上有很大的價值-訓練模型產生人類認可的思考鏈。

最新研究當然少不了Sam Altman的轉發,「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果,這是對齊的積極信號。」

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

##在實務中,「過程監督」因為需要人工回饋,對於大模型和各種任務來說成本都極為高昂。因此,這項工作意義重大,可以說能夠確定OpenAI未來的研究方向。

解決數學問題

在實驗中,研究者用MATH資料集中的問題,來評估「過程監督」與「結果監督」的獎勵模型。

讓模型為每個問題產生許多解決方案,然後挑選每個獎勵模型排名最高的解決方案。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數量的函數。

「過程監督」獎勵模型不僅在整體上表現更好,而且隨著考慮每個問題的更多解決方案,效能差距也在擴大。

這表明,「過程監督」獎勵模型更加可靠。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如下,OpenAI展示了模型的10個數學問題和解決方案,以及對獎勵模型優缺點的評論。

從以下三類指標,真正(TP)、真負(TN)、假正(FP),對模型進行了評估。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真正(TP)

先來簡化個三角函數公式。

這個具有挑戰性的三角函數問題,需要以一個不明顯的順序應用幾個恆等式。

但是大多數解決嘗試都失敗了,因為很難選擇哪些恆等式實際上是有用的。

雖然GPT-4通常無法解決這個問題,只有0.1%的解決方案嘗試實現正確答案,但獎勵模型正確地識別出這個解決方案是有效的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

這裡,GPT-4成功地執行了一系列複雜的多項式因式分解。

在步驟5中使用Sophie-Germain恆等式是一個重要的步驟。可見,這步驟很有洞察力。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟7和8中,GPT-4開始執行猜測和檢查。

這是這個模型可能產生「幻覺」的常見地方,它會聲稱某個特定的猜測是成功的。在這種情況下,獎勵模型會驗證每一步,並確定思維鍊是正確的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

模型成功地應用了幾個三角恆等式以簡化表達式。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真負(TN)

#在步驟7中,GPT-4試圖簡化一個表達式,但嘗試失敗。獎勵模型發現了這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟11中,GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟12中嘗試使用差平方公式,但這個表達式其實並非差平方。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

步驟8的理由很奇怪,但獎勵模型讓它通過了。然而,在步驟9中,模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

假正(FP)

#在步驟4中,GPT-4錯誤地聲稱「序列每12項重複一次」,但實際上每10項重複一次。這種計數錯誤偶爾會欺騙獎勵模型。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟13中,GPT-4試圖透過合併類似的項來簡化方程式。它正確地將線性項移動並組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4嘗試進行長除法,但在步驟16中,它忘記在小數的重複部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟9中犯了一個微妙的計數錯誤。

表面上,聲稱有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。

然而,這個計數低估了2倍,因為Bob有2個選擇,也就是決定把哪一個球給Alice。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

過程監督

雖然大語言模型在複雜推理能力方面有了很大的提升,但即使是最先進的模型仍然會產生邏輯錯誤,或胡說八道,也就是人們常說的「幻覺」。

在生成式人工智慧的熱潮中,大語言模型的幻覺一直讓人苦惱不已。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

馬斯克說,我們需要的是TruthGPT

例如最近,一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。

OpenAI的研究者在報告中提到:「在需要多步驟推理的領域,這些幻覺尤其成問題,因為,一個簡單的邏輯錯誤,就足以對整個解決方案造成極大的破壞」

而且,減輕幻覺,也是建構一致AGI的關鍵。

怎麼減少大模型的幻覺呢?一般有兩種方法-過程監督和結果監督。

「結果監督」,顧名思義,就是根據最終結果給予大模型回饋,而「過程監督」則可以針對思考鏈中的每個步驟提供回饋。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在過程監督中,會獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個過程,會鼓勵模型遵循更多類似人類的思考方法鏈,因而也就更可能造就更好的解釋AI。

OpenAI的研究者表示,雖然過程監督並不是OpenAI發明的,但OpenAI正在努力推動它向前發展。在

最新研究中, OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。並使用MATH資料集作為測試平台,並對這兩種方法進行了詳細比較。

結果發現,「過程監督」能夠明顯提升模型效能。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對於數學任務,「過程監督」對大模型和小模型都產生了明顯更好的結果,這意味著模型通常是正確的,並且也表現出了更像人類的思考過程。

這樣,即使在最強大的模型中也很難避免的幻覺或邏輯錯誤,就可以減少了。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對齊優勢明顯

研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢:

· 直接獎勵遵循一致的思維鏈模型,因為過程中的每個步驟都受到精確的監督。

· 更有可能產生可解釋的推理,因為「過程監督」鼓勵模型遵循人類認可的過程。相較之下,結果監督可能會獎勵一個不一致的過程,而且通常更難審查。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會導致效能下降。這種成本被稱為「對齊稅」(alignment tax)。

一般來說,為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的採用。

但是,研究人員如下的結果表明,「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。

可以說,沒有因為對齊造成較大效能損耗。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

OpenAI發布80萬人工標註資料集

值得注意的是,PRM需要更多的人類標註,還是深深離不開RLHF。

過程監督在數學以外的領域,具有多大的適用性呢?這個過程需要進一步探索。

OpenAI研究人員開放了這次人類回饋資料集PRM,包含800,000個步驟級正確標註:12K數學問題產生的75K解決方案

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

#如下是一個標註的範例。 OpenAI正在發布原始標註,以及在專案第1階段和第2階段給標註者的指示。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

網友熱評

英偉達科學家Jim Fan對OpenAI最新研究做了一個總結:

對於具有挑戰性的逐步問題,在每一步中給予獎勵,而不是在最後給予單一的獎勵。基本上,密集獎勵訊號>稀疏獎勵訊號。 過程獎勵模式(PRM)能夠比結果獎勵模式(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調,而本文還沒有這麼做。 需要注意的是,PRM需要更多的人類標註。 OpenAI發布了人類回饋資料集:在12K數學問題的75K解決方案中的800K步驟級標註。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#這就像上學時常說的一句老話,學會如何去思考。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

訓練模型去思考,而不僅是輸出正確的答案,將會成為解決複雜問題的game changer。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#ChatGPT在數學方面超弱。今天我試著解決一個四年級數學書上的數學問題。 ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、Google的答案,以及四年級的老師進行了核對。每個地方都可以確認,chatgpt的答案是錯的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

參考資料:https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7

#

以上是GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

七邊形數 七邊形數 Sep 24, 2023 am 10:33 AM

Aheptagonalnumberisanumberwhichcanberepresentedasaheptagon.Aheptagonisapolygonwith7sides.Aheptagonalnumbercanberepresentedasacombinationofsuccessivelayersofheptagon(7-sidedpolygon).Heptagonalnumbercanbebetterexpexpmedwiththebelowgures.第一個七邊形數是第一個七邊形數。因此,

全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

GPT-4接入Office全家桶! Excel到PPT動嘴就可以做,微軟:重新發明生產力 GPT-4接入Office全家桶! Excel到PPT動嘴就可以做,微軟:重新發明生產力 Apr 12, 2023 pm 02:40 PM

一覺醒來,工作的方式被徹底改變。微軟把AI神器GPT-4全面接入Office,這下ChatPPT、ChatWord、ChatExcel一家整整齊齊。 CEO納德拉在發表會上直接放話:今天,進入人機互動的新時代,重新發明生產力。新功能名叫Microsoft 365 Copilot(副駕駛),與改變了程式設計師的程式碼助手GitHub Copilot成為一個系列,繼續改變更多人。現在AI不光能自動做PPT,而且能根據Word文件的內容一鍵做出精美排版。甚至連上台時對著每一頁PPT該講什麼話,都給一起安排

ChatGPT和生成式人工智慧在數位轉型中的意義 ChatGPT和生成式人工智慧在數位轉型中的意義 May 15, 2023 am 10:19 AM

開發ChatGPT的OpenAI公司在網站上展示了摩根士丹利進行的一個案例研究。其主題是「摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。」該案例研究引述摩根士丹利分析、數據與創新主管JeffMcMillan的話說,「該模型將為一個面向內部的聊天機器人提供動力,該機器人將對財富管理內容進行全面搜索,並有效地解鎖摩根士丹利財富管理的累積知識」。 McMillan進一步強調:「採用GPT-4,你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想像成我們的首席投資策略師、首席全球經濟學家

See all articles