7B開源數學模型幹翻千億GPT-4，中國團隊出品-人工智慧-PHP中文網

7B模型力壓群雄

基於程式碼模型打造

曾推出首個國產開源MoE模型

首頁

科技週邊

人工智慧

7B開源數學模型幹翻千億GPT-4，中國團隊出品

王林

Feb 07, 2024 pm 05:03 PM

ai 數據

7B開源模型，數學能力超過了千億規模的GPT-4！

它的表現可謂是突破了開源模型的極限，連阿里通義的研究員也感嘆縮放定律是不是失效了。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

#無須使用任何外部工具，它就能在競賽等級的MATH資料集上達到51.7%的準確率。

在開源模型中，它第一個在該資料集上達到一半的準確率，甚至超過了早期和API版本的GPT-4。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

這一表現讓整個開源社群震驚，Stability AI的創始人Emad Mostaque稱讚研發團隊令人印象深刻，潛力被低估了。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

它，就是深度求索團隊最新開源的7B數學大模型DeepSeekMath。

7B模型力壓群雄

為了評估DeepSeekMath的數學能力，研究團隊使用了中（MGSM-zh、CMATH）英（GSM8K、MATH ）雙語的資料集進行了測試。

在未使用輔助工具、僅靠思考鏈（CoT）提示的情況下，DeepSeekMath的表現均超越了其他開源模型，其中包括70B的數學大模型MetaMATH。

和自家推出的67B通用大模型相比，DeepSeekMath的成績也大幅提升。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

如果考慮閉源模型，DeepSeekMath也是在幾個資料集上都超越了Gemini Pro和GPT-3.5，在中文的CMATH上超越了GPT-4， MATH上的表現也與之接近。

但要注意的是，GPT-4依洩漏規格是一個千億參數的龐然大物，而DeepSeekMath參數量只有7B。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

如果允許使用工具（Python）進行輔助，DeepSeekMath在競賽難度（MATH）資料集上的表現還能再提高7個百分點。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

那麼，DeepSeekMath優異表現的背後，都應用了哪些技術呢？

基於程式碼模型打造

為了獲得比從通用模型更好的數學能力，研究團隊使用了程式碼模型DeepSeek-Coder-v1.5對其進行初始化。

因為團隊發現，無論是在兩階段訓練或一階段訓練設定下，程式碼訓練比起通用資料訓練都可以提升模型的數學能力。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

在Coder的基礎上，研究團隊繼續訓練了5000億token，資料分佈如下圖：

7B開源數學模型幹翻千億GPT-4，中國團隊出品

訓練數據方面，DeepSeekMath使用的是從Common Crawl提取的120B高品質數學網頁數據，得到了DeepSeekMath Corpus，總數據量是開源數據集OpenWebMath的9倍。

資料收集過程是迭代式進行的，經過四次迭代，研究團隊收集了3500多萬個數學網頁，Token數量達到了1200億。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

為了確保訓練資料中不包含測試集的內容（因為GSM8K、MATH中的內容在網路上大量存在），研究團隊還專門進行了過濾。

為了驗證DeepSeekMath Corpus的資料質量，研究團隊分別用MathPile等多個資料集訓練了1500億token，結果Corpus在多個數學基准上效果明顯領先。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

對齊階段，研究團隊首先建構了一個776K樣本的中英文數學指導監督微調（SFT）資料集，其中包括CoT、PoT和工具整合推理等三種格式。

而在強化學習（RL）階段，研究團隊使用了一種名為「基於群組的相對策略最佳化」（Group Relative Policy Optimization ，GRPO）的高效演算法.

GRPO是近端策略最佳化（PPO）的變體，過程中傳統的價值函數被替換為基於群組的相對獎勵估計，可以減少訓練過程中的計算和記憶體需求。

同時，GRPO透過迭代過程進行訓練，獎勵模型會根據策略模型的輸出不斷更新，以確保策略的持續改進。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

曾推出首個國產開源MoE模型

#推出DeepSeekMath的深度求索團隊，是國內開源模型領域的一名「頭部選手」。

先前，該團隊就曾推出首個國產開源MoE模型DeepSeek MoE，它的7B版本以40%的計算量擊敗了相同規模的密集模型Llama 2。

作為通用模型，DeepSeek MoE在程式碼和數學任務上的表現就已十分亮眼，而且資源消耗非常低。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

程式碼方面，團隊推出的DeepSeek-Coder的程式設計能力在程式碼產生、跨檔案程式碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源標竿CodeLllama。

同時，它也擊敗了GPT-3.5-Turbo，成為最接近GPT-4-Turbo的開源程式碼模型。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

如前文所說，此次推出的DeepSeekMath，也正是在Coder的基礎之上打造的。

而在X上，已經有人開始在期待Coder和Math的MoE版本了。

7B開源數學模型幹翻千億GPT-4，中國團隊出品

論文網址：https://arxiv.org/abs/2402.03300

以上是7B開源數學模型幹翻千億GPT-4，中國團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7814

Java教學

1646

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名，適合新手與基礎分析需求。 2. 非小號提供中文友好界面，適合中文用戶快速篩選低風險潛力項目。

okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下：1) 發展歷程：2017 年創辦，2022 年更名為 OKX；2) 總部位於塞舌爾；3) 業務範圍涵蓋多種交易產品，支持 350 多種加密貨幣；4) 用戶遍布 200 餘個國家，千萬級用戶量；5) 採用多重安全措施保障用戶資產；6) 交易費用基於做市商模式，費率隨交易量增加而降低；7) 曾獲多項榮譽，如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台，關注冷存儲比例與審計透明度；散戶投資者應選擇幣安和火幣等大平台，注重用戶體驗與安全；合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易，中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素：1. 流動性：優先選擇日均交易量超50億美元的平台。 2. 合規性：查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性：冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力：是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase，啟用多重驗證，資產自託管可減少依賴：1. 選擇有監管牌照的交易所；2. 開啟2FA和提幣白名單；3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10（025年最新排名） Apr 22, 2025 am 07:45 AM

gate.io（全球版）核心優勢是界面極簡，支持中文，法幣交易流程直觀；幣安（簡版）核心優勢是全球交易量第一，簡版模式僅保留現貨交易；OKX（香港版）核心優勢是界面簡潔，支持粵語/普通話，衍生品交易門檻低；火幣全球站（香港版）核心優勢是老牌交易所，推出元宇宙交易終端；KuCoin（中文社區版）核心優勢是支持800 幣種，界面採用微信式交互；Kraken（香港版）核心優勢是美國老牌交易所，持有香港SVF牌照，界面簡潔；HashKey Exchange（香港持牌）核心優勢是香港知名持牌交易所，支持法