GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺-人工智慧-PHP中文網

真負（TN）

假正（FP）

過程監督

對齊優勢明顯

OpenAI發布80萬人工標註資料集

網友熱評

首頁

科技週邊

人工智慧

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

王林

Jun 03, 2023 pm 12:25 PM

gpt-4 數學

ChatGPT自發布以來，數學能力飽受批評。

就連「數學天才」陶哲軒曾表示，GPT-4在自己的數學專業領域，並沒有太多的增值。

怎麼辦，就一直讓ChatGPT做個「數學智障」麼？

OpenAI在努力－為了提升GPT-4的數學推理能力，OpenAI團隊用「過程監督」（PRM）訓練模型。

讓我們一步一步驗證！

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

論文地址：https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf

論文中，研究人員訓練模型透過獎勵每一個正確的推理步驟，即「過程監督」，而不僅僅是獎勵正確的最終結果（結果監督），在數學問題解決方面取得最新SOTA。

具體來講， PRM解決了MATH測試集代表性子集中78.2%的問題。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

此外，OpenAI發現「過程監督」在對齊上有很大的價值－訓練模型產生人類認可的思考鏈。

最新研究當然少不了Sam Altman的轉發，「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果，這是對齊的積極信號。」

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

##在實務中，「過程監督」因為需要人工回饋，對於大模型和各種任務來說成本都極為高昂。因此，這項工作意義重大，可以說能夠確定OpenAI未來的研究方向。

解決數學問題

在實驗中，研究者用MATH資料集中的問題，來評估「過程監督」與「結果監督」的獎勵模型。

讓模型為每個問題產生許多解決方案，然後挑選每個獎勵模型排名最高的解決方案。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

如圖顯示了所選解決方案中，取得正確最終答案的百分比，作為所考慮解決方案數量的函數。

「過程監督」獎勵模型不僅在整體上表現更好，而且隨著考慮每個問題的更多解決方案，效能差距也在擴大。

這表明，「過程監督」獎勵模型更加可靠。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

如下，OpenAI展示了模型的10個數學問題和解決方案，以及對獎勵模型優缺點的評論。

從以下三類指標，真正（TP）、真負（TN）、假正（FP），對模型進行了評估。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

真正（TP）

先來簡化個三角函數公式。

這個具有挑戰性的三角函數問題，需要以一個不明顯的順序應用幾個恆等式。

但是大多數解決嘗試都失敗了，因為很難選擇哪些恆等式實際上是有用的。

雖然GPT-4通常無法解決這個問題，只有0.1%的解決方案嘗試實現正確答案，但獎勵模型正確地識別出這個解決方案是有效的。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

這裡，GPT-4成功地執行了一系列複雜的多項式因式分解。

在步驟5中使用Sophie-Germain恆等式是一個重要的步驟。可見，這步驟很有洞察力。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

在步驟7和8中，GPT-4開始執行猜測和檢查。

這是這個模型可能產生「幻覺」的常見地方，它會聲稱某個特定的猜測是成功的。在這種情況下，獎勵模型會驗證每一步，並確定思維鍊是正確的。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

模型成功地應用了幾個三角恆等式以簡化表達式。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

真負（TN）

#在步驟7中，GPT-4試圖簡化一個表達式，但嘗試失敗。獎勵模型發現了這個錯誤。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

在步驟11中，GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

GPT-4在步驟12中嘗試使用差平方公式，但這個表達式其實並非差平方。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

步驟8的理由很奇怪，但獎勵模型讓它通過了。然而，在步驟9中，模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

假正（FP）

#在步驟4中，GPT-4錯誤地聲稱「序列每12項重複一次」，但實際上每10項重複一次。這種計數錯誤偶爾會欺騙獎勵模型。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

在步驟13中，GPT-4試圖透過合併類似的項來簡化方程式。它正確地將線性項移動並組合到左邊，但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

GPT-4嘗試進行長除法，但在步驟16中，它忘記在小數的重複部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

GPT-4在步驟9中犯了一個微妙的計數錯誤。

表面上，聲稱有5種方法可以交換同色的球（因為有5種顏色）似乎是合理的。

然而，這個計數低估了2倍，因為Bob有2個選擇，也就是決定把哪一個球給Alice。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

過程監督

雖然大語言模型在複雜推理能力方面有了很大的提升，但即使是最先進的模型仍然會產生邏輯錯誤，或胡說八道，也就是人們常說的「幻覺」。

在生成式人工智慧的熱潮中，大語言模型的幻覺一直讓人苦惱不已。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

馬斯克說，我們需要的是TruthGPT

例如最近，一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件，可能面臨制裁。

OpenAI的研究者在報告中提到：「在需要多步驟推理的領域，這些幻覺尤其成問題，因為，一個簡單的邏輯錯誤，就足以對整個解決方案造成極大的破壞」

而且，減輕幻覺，也是建構一致AGI的關鍵。

怎麼減少大模型的幻覺呢？一般有兩種方法－過程監督和結果監督。

「結果監督」，顧名思義，就是根據最終結果給予大模型回饋，而「過程監督」則可以針對思考鏈中的每個步驟提供回饋。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

在過程監督中，會獎勵大模型正確的推理步驟，而不僅僅是獎勵它們正確的最終結論。這個過程，會鼓勵模型遵循更多類似人類的思考方法鏈，因而也就更可能造就更好的解釋AI。

OpenAI的研究者表示，雖然過程監督並不是OpenAI發明的，但OpenAI正在努力推動它向前發展。在

最新研究中， OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。並使用MATH資料集作為測試平台，並對這兩種方法進行了詳細比較。

結果發現，「過程監督」能夠明顯提升模型效能。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

對於數學任務，「過程監督」對大模型和小模型都產生了明顯更好的結果，這意味著模型通常是正確的，並且也表現出了更像人類的思考過程。

這樣，即使在最強大的模型中也很難避免的幻覺或邏輯錯誤，就可以減少了。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

對齊優勢明顯

研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢：

· 直接獎勵遵循一致的思維鏈模型，因為過程中的每個步驟都受到精確的監督。

· 更有可能產生可解釋的推理，因為「過程監督」鼓勵模型遵循人類認可的過程。相較之下，結果監督可能會獎勵一個不一致的過程，而且通常更難審查。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

另外值得一提的是，在某些情況下，讓AI系統更安全的方法可能會導致效能下降。這種成本被稱為「對齊稅」（alignment tax）。

一般來說，為了部署最有能力的模型，任何「對齊稅」成本都可能阻礙對齊方法的採用。

但是，研究人員如下的結果表明，「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。

可以說，沒有因為對齊造成較大效能損耗。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

OpenAI發布80萬人工標註資料集

值得注意的是，PRM需要更多的人類標註，還是深深離不開RLHF。

過程監督在數學以外的領域，具有多大的適用性呢？這個過程需要進一步探索。

OpenAI研究人員開放了這次人類回饋資料集PRM，包含800,000個步驟級正確標註：12K數學問題產生的75K解決方案

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

#如下是一個標註的範例。 OpenAI正在發布原始標註，以及在專案第1階段和第2階段給標註者的指示。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

網友熱評

英偉達科學家Jim Fan對OpenAI最新研究做了一個總結：

對於具有挑戰性的逐步問題，在每一步中給予獎勵，而不是在最後給予單一的獎勵。基本上，密集獎勵訊號>稀疏獎勵訊號。過程獎勵模式（PRM）能夠比結果獎勵模式（ORM）更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調，而本文還沒有這麼做。需要注意的是，PRM需要更多的人類標註。 OpenAI發布了人類回饋資料集：在12K數學問題的75K解決方案中的800K步驟級標註。

#這就像上學時常說的一句老話，學會如何去思考。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

訓練模型去思考，而不僅是輸出正確的答案，將會成為解決複雜問題的game changer。

#ChatGPT在數學方面超弱。今天我試著解決一個四年級數學書上的數學問題。 ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案，在perplexity AI、Google的答案，以及四年級的老師進行了核對。每個地方都可以確認，chatgpt的答案是錯的。

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

參考資料：https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7

以上是GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3，又有測試結果新鮮出爐－大模型評測社群LMSYS發布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4並列第一。圖片不同於其他Benchmark，這份榜單的依據是模型一對一battle，由全網測評者自行命題並評分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對於這一結果，Meta的首席科學家LeCun十分高興，轉發了推文並

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠對各種問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

全球最強模型一夜易主，GPT-4時代終結！ Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！在多模態和語言能力指標上，Claude3都贏麻了。用Anthropic的話來說，Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面，都樹立了新的行業基準！ Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的新創公司，他們的產品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

七邊形數 Sep 24, 2023 am 10:33 AM

Aheptagonalnumberisanumberwhichcanberepresentedasaheptagon.Aheptagonisapolygonwith7sides.Aheptagonalnumbercanberepresentedasacombinationofsuccessivelayersofheptagon(7-sidedpolygon).Heptagonalnumbercanbebetterexpexpmedwiththebelowgures.第一個七邊形數是第一個七邊形數。因此，

GPT-4接入Office全家桶！ Excel到PPT動嘴就可以做，微軟：重新發明生產力 Apr 12, 2023 pm 02:40 PM

一覺醒來，工作的方式被徹底改變。微軟把AI神器GPT-4全面接入Office，這下ChatPPT、ChatWord、ChatExcel一家整整齊齊。 CEO納德拉在發表會上直接放話：今天，進入人機互動的新時代，重新發明生產力。新功能名叫Microsoft 365 Copilot（副駕駛），與改變了程式設計師的程式碼助手GitHub Copilot成為一個系列，繼續改變更多人。現在AI不光能自動做PPT，而且能根據Word文件的內容一鍵做出精美排版。甚至連上台時對著每一頁PPT該講什麼話，都給一起安排

ChatGPT和生成式人工智慧在數位轉型中的意義 May 15, 2023 am 10:19 AM

開發ChatGPT的OpenAI公司在網站上展示了摩根士丹利進行的一個案例研究。其主題是「摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。」該案例研究引述摩根士丹利分析、數據與創新主管JeffMcMillan的話說，「該模型將為一個面向內部的聊天機器人提供動力，該機器人將對財富管理內容進行全面搜索，並有效地解鎖摩根士丹利財富管理的累積知識」。 McMillan進一步強調：「採用GPT-4，你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想像成我們的首席投資策略師、首席全球經濟學家

See all articles

GPT-4數學能力大蹦極！ OpenAI爆火研究「過程監督」突破78.2%難題，幹掉幻覺

真負（TN）

假正（FP）

過程監督

對齊優勢明顯

OpenAI發布80萬人工標註資料集

網友熱評

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題