GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

王林
發布: 2023-06-03 12:25:13
轉載
1216 人瀏覽過

ChatGPT自發布以來,數學能力飽受批評。

就連「數學天才」陶哲軒曾表示,GPT-4在自己的數學專業領域,並沒有太多的增值。

怎麼辦,就一直讓ChatGPT做個「數學智障」麼?

OpenAI在努力-為了提升GPT-4的數學推理能力,OpenAI團隊用「過程監督」(PRM)訓練模型。

讓我們一步一步驗證!

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf

論文中,研究人員訓練模型透過獎勵每一個正確的推理步驟,即「過程監督」,而不僅僅是獎勵正確的最終結果(結果監督),在數學問題解決方面取得最新SOTA。

具體來講, PRM解決了MATH測試集代表性子集中78.2%的問題。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

此外,OpenAI發現「過程監督」在對齊上有很大的價值-訓練模型產生人類認可的思考鏈。

最新研究當然少不了Sam Altman的轉發,「我們的Mathgen團隊在過程監督上取得了非常令人振奮的結果,這是對齊的積極信號。」

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

##在實務中,「過程監督」因為需要人工回饋,對於大模型和各種任務來說成本都極為高昂。因此,這項工作意義重大,可以說能夠確定OpenAI未來的研究方向。

解決數學問題

在實驗中,研究者用MATH資料集中的問題,來評估「過程監督」與「結果監督」的獎勵模型。

讓模型為每個問題產生許多解決方案,然後挑選每個獎勵模型排名最高的解決方案。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如圖顯示了所選解決方案中,取得正確最終答案的百分比,作為所考慮解決方案數量的函數。

「過程監督」獎勵模型不僅在整體上表現更好,而且隨著考慮每個問題的更多解決方案,效能差距也在擴大。

這表明,「過程監督」獎勵模型更加可靠。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

如下,OpenAI展示了模型的10個數學問題和解決方案,以及對獎勵模型優缺點的評論。

從以下三類指標,真正(TP)、真負(TN)、假正(FP),對模型進行了評估。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真正(TP)

先來簡化個三角函數公式。

這個具有挑戰性的三角函數問題,需要以一個不明顯的順序應用幾個恆等式。

但是大多數解決嘗試都失敗了,因為很難選擇哪些恆等式實際上是有用的。

雖然GPT-4通常無法解決這個問題,只有0.1%的解決方案嘗試實現正確答案,但獎勵模型正確地識別出這個解決方案是有效的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

這裡,GPT-4成功地執行了一系列複雜的多項式因式分解。

在步驟5中使用Sophie-Germain恆等式是一個重要的步驟。可見,這步驟很有洞察力。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟7和8中,GPT-4開始執行猜測和檢查。

這是這個模型可能產生「幻覺」的常見地方,它會聲稱某個特定的猜測是成功的。在這種情況下,獎勵模型會驗證每一步,並確定思維鍊是正確的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

模型成功地應用了幾個三角恆等式以簡化表達式。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

真負(TN)

#在步驟7中,GPT-4試圖簡化一個表達式,但嘗試失敗。獎勵模型發現了這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟11中,GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發現。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟12中嘗試使用差平方公式,但這個表達式其實並非差平方。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

步驟8的理由很奇怪,但獎勵模型讓它通過了。然而,在步驟9中,模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

假正(FP)

#在步驟4中,GPT-4錯誤地聲稱「序列每12項重複一次」,但實際上每10項重複一次。這種計數錯誤偶爾會欺騙獎勵模型。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在步驟13中,GPT-4試圖透過合併類似的項來簡化方程式。它正確地將線性項移動並組合到左邊,但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4嘗試進行長除法,但在步驟16中,它忘記在小數的重複部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

GPT-4在步驟9中犯了一個微妙的計數錯誤。

表面上,聲稱有5種方法可以交換同色的球(因為有5種顏色)似乎是合理的。

然而,這個計數低估了2倍,因為Bob有2個選擇,也就是決定把哪一個球給Alice。獎勵模型被這個錯誤所欺騙。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

過程監督

雖然大語言模型在複雜推理能力方面有了很大的提升,但即使是最先進的模型仍然會產生邏輯錯誤,或胡說八道,也就是人們常說的「幻覺」。

在生成式人工智慧的熱潮中,大語言模型的幻覺一直讓人苦惱不已。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

馬斯克說,我們需要的是TruthGPT

例如最近,一位美國律師在紐約聯邦法院的文件中就引用了ChatGPT捏造出的案件,可能面臨制裁。

OpenAI的研究者在報告中提到:「在需要多步驟推理的領域,這些幻覺尤其成問題,因為,一個簡單的邏輯錯誤,就足以對整個解決方案造成極大的破壞」

而且,減輕幻覺,也是建構一致AGI的關鍵。

怎麼減少大模型的幻覺呢?一般有兩種方法-過程監督和結果監督。

「結果監督」,顧名思義,就是根據最終結果給予大模型回饋,而「過程監督」則可以針對思考鏈中的每個步驟提供回饋。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

在過程監督中,會獎勵大模型正確的推理步驟,而不僅僅是獎勵它們正確的最終結論。這個過程,會鼓勵模型遵循更多類似人類的思考方法鏈,因而也就更可能造就更好的解釋AI。

OpenAI的研究者表示,雖然過程監督並不是OpenAI發明的,但OpenAI正在努力推動它向前發展。在

最新研究中, OpenAI把「結果監督」或「過程監督」兩種方法都試了一遍。並使用MATH資料集作為測試平台,並對這兩種方法進行了詳細比較。

結果發現,「過程監督」能夠明顯提升模型效能。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對於數學任務,「過程監督」對大模型和小模型都產生了明顯更好的結果,這意味著模型通常是正確的,並且也表現出了更像人類的思考過程。

這樣,即使在最強大的模型中也很難避免的幻覺或邏輯錯誤,就可以減少了。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

對齊優勢明顯

研究人員發現了「過程監督」比「結果監督」有幾個對齊優勢:

· 直接獎勵遵循一致的思維鏈模型,因為過程中的每個步驟都受到精確的監督。

· 更有可能產生可解釋的推理,因為「過程監督」鼓勵模型遵循人類認可的過程。相較之下,結果監督可能會獎勵一個不一致的過程,而且通常更難審查。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

另外值得一提的是,在某些情況下,讓AI系統更安全的方法可能會導致效能下降。這種成本被稱為「對齊稅」(alignment tax)。

一般來說,為了部署最有能力的模型,任何「對齊稅」成本都可能阻礙對齊方法的採用。

但是,研究人員如下的結果表明,「過程監督」在數學領域測試過程中實際上會產生「負對齊稅」。

可以說,沒有因為對齊造成較大效能損耗。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

OpenAI發布80萬人工標註資料集

值得注意的是,PRM需要更多的人類標註,還是深深離不開RLHF。

過程監督在數學以外的領域,具有多大的適用性呢?這個過程需要進一步探索。

OpenAI研究人員開放了這次人類回饋資料集PRM,包含800,000個步驟級正確標註:12K數學問題產生的75K解決方案

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

#如下是一個標註的範例。 OpenAI正在發布原始標註,以及在專案第1階段和第2階段給標註者的指示。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

網友熱評

英偉達科學家Jim Fan對OpenAI最新研究做了一個總結:

對於具有挑戰性的逐步問題,在每一步中給予獎勵,而不是在最後給予單一的獎勵。基本上,密集獎勵訊號>稀疏獎勵訊號。 過程獎勵模式(PRM)能夠比結果獎勵模式(ORM)更好為困難的MATH基準挑選解決方案。下一步顯然是用PRM對GPT-4進行微調,而本文還沒有這麼做。 需要注意的是,PRM需要更多的人類標註。 OpenAI發布了人類回饋資料集:在12K數學問題的75K解決方案中的800K步驟級標註。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#這就像上學時常說的一句老話,學會如何去思考。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

訓練模型去思考,而不僅是輸出正確的答案,將會成為解決複雜問題的game changer。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺


#ChatGPT在數學方面超弱。今天我試著解決一個四年級數學書上的數學問題。 ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案,在perplexity AI、Google的答案,以及四年級的老師進行了核對。每個地方都可以確認,chatgpt的答案是錯的。

GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺

參考資料:https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7

#

以上是GPT-4數學能力大蹦極! OpenAI爆火研究「過程監督」突破78.2%難題,幹掉幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板