目錄
7B模型力壓群雄
基於程式碼模型打造
曾推出首個國產開源MoE模型
首頁 科技週邊 人工智慧 7B開源數學模型幹翻千億GPT-4,中國團隊出品

7B開源數學模型幹翻千億GPT-4,中國團隊出品

Feb 07, 2024 pm 05:03 PM
ai 數據

7B開源模型,數學能力超過了千億規模的GPT-4!

它的表現可謂是突破了開源模型的極限,連阿里通義的研究員也感嘆縮放定律是不是失效了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

#無須使用任何外部工具,它就能在競賽等級的MATH資料集上達到51.7%的準確率。

在開源模型中,它第一個在該資料集上達到一半的準確率,甚至超過了早期和API版本的GPT-4。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

這一表現讓整個開源社群震驚,Stability AI的創始人Emad Mostaque稱讚研發團隊令人印象深刻,潛力被低估了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

它,就是深度求索團隊最新開源的7B數學大模型DeepSeekMath。

7B模型力壓群雄

為了評估DeepSeekMath的數學能力,研究團隊使用了中(MGSM-zh、CMATH)(GSM8K、MATH )雙語的資料集進行了測試。

在未使用輔助工具、僅靠思考鏈(CoT)提示的情況下,DeepSeekMath的表現均超越了其他開源模型,其中包括70B的數學大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成績也大幅提升。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如果考慮閉源模型,DeepSeekMath也是在幾個資料集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4, MATH上的表現也與之接近。

但要注意的是,GPT-4依洩漏規格是一個千億參數的龐然大物,而DeepSeekMath參數量只有7B。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如果允許使用工具(Python)進行輔助,DeepSeekMath在競賽難度(MATH)資料集上的表現還能再提高7個百分點。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

那麼,DeepSeekMath優異表現的背後,都應用了哪些技術呢?

基於程式碼模型打造

為了獲得比從通用模型更好的數學能力,研究團隊使用了程式碼模型DeepSeek-Coder-v1.5對其進行初始化。

因為團隊發現,無論是在兩階段訓練或一階段訓練設定下,程式碼訓練比起通用資料訓練都可以提升模型的數學能力。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

在Coder的基礎上,研究團隊繼續訓練了5000億token,資料分佈如下圖:

7B開源數學模型幹翻千億GPT-4,中國團隊出品

訓練數據方面,DeepSeekMath使用的是從Common Crawl提取的120B高品質數學網頁數據,得到了DeepSeekMath Corpus,總數據量是開源數據集OpenWebMath的9倍。

資料收集過程是迭代式進行的,經過四次迭代,研究團隊收集了3500多萬個數學網頁,Token數量達到了1200億。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

為了確保訓練資料中不包含測試集的內容(因為GSM8K、MATH中的內容在網路上大量存在),研究團隊還專門進行了過濾。

為了驗證DeepSeekMath Corpus的資料質量,研究團隊分別用MathPile等多個資料集訓練了1500億token,結果Corpus在多個數學基准上效果明顯領先。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

對齊階段,研究團隊首先建構了一個776K樣本的中英文數學指導監督微調(SFT)資料集,其中包括CoT、PoT和工具整合推理等三種格式。

而在強化學習(RL)階段,研究團隊使用了一種名為「基於群組的相對策略最佳化」(Group Relative Policy Optimization ,GRPO)的高效演算法.

GRPO是近端策略最佳化(PPO)的變體,過程中傳統的價值函數被替換為基於群組的相對獎勵估計,可以減少訓練過程中的計算和記憶體需求。

同時,GRPO透過迭代過程進行訓練,獎勵模型會根據策略模型的輸出不斷更新,以確保策略的持續改進。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

曾推出首個國產開源MoE模型

#推出DeepSeekMath的深度求索團隊,是國內開源模型領域的一名「頭部選手」。

先前,該團隊就曾推出首個國產開源MoE模型DeepSeek MoE,它的7B版本以40%的計算量擊敗了相同規模的密集模型Llama 2。

作為通用模型,DeepSeek MoE在程式碼和數學任務上的表現就已十分亮眼,而且資源消耗非常低。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

程式碼方面,團隊推出的DeepSeek-Coder的程式設計能力在程式碼產生、跨檔案程式碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源標竿CodeLllama。

同時,它也擊敗了GPT-3.5-Turbo,成為最接近GPT-4-Turbo的開源程式碼模型。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

如前文所說,此次推出的DeepSeekMath,也正是在Coder的基礎之上打造的。

而在X上,已經有人開始在期待Coder和Math的MoE版本了。

7B開源數學模型幹翻千億GPT-4,中國團隊出品

論文網址:https://arxiv.org/abs/2402.03300

以上是7B開源數學模型幹翻千億GPT-4,中國團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

okx在線  okx交易所官網在線 okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10(025年最新排名) 數字貨幣交易app容易上手的推薦top10(025年最新排名) Apr 22, 2025 am 07:45 AM

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

幣圈十大行情網站的使用技巧與推薦2025 幣圈十大行情網站的使用技巧與推薦2025 Apr 22, 2025 am 08:03 AM

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

See all articles