7B開源數學模型幹翻千億GPT-4,中國團隊出品
7B開源模型,數學能力超過了千億規模的GPT-4!
它的表現可謂是突破了開源模型的極限,連阿里通義的研究員也感嘆縮放定律是不是失效了。
#無須使用任何外部工具,它就能在競賽等級的MATH資料集上達到51.7%的準確率。
在開源模型中,它第一個在該資料集上達到一半的準確率,甚至超過了早期和API版本的GPT-4。
這一表現讓整個開源社群震驚,Stability AI的創始人Emad Mostaque稱讚研發團隊令人印象深刻,潛力被低估了。
它,就是深度求索團隊最新開源的7B數學大模型DeepSeekMath。
7B模型力壓群雄
為了評估DeepSeekMath的數學能力,研究團隊使用了中(MGSM-zh、CMATH)英(GSM8K、MATH )雙語的資料集進行了測試。
在未使用輔助工具、僅靠思考鏈(CoT)提示的情況下,DeepSeekMath的表現均超越了其他開源模型,其中包括70B的數學大模型MetaMATH。
和自家推出的67B通用大模型相比,DeepSeekMath的成績也大幅提升。
如果考慮閉源模型,DeepSeekMath也是在幾個資料集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4, MATH上的表現也與之接近。
但要注意的是,GPT-4依洩漏規格是一個千億參數的龐然大物,而DeepSeekMath參數量只有7B。
如果允許使用工具(Python)進行輔助,DeepSeekMath在競賽難度(MATH)資料集上的表現還能再提高7個百分點。
那麼,DeepSeekMath優異表現的背後,都應用了哪些技術呢?
基於程式碼模型打造
為了獲得比從通用模型更好的數學能力,研究團隊使用了程式碼模型DeepSeek-Coder-v1.5對其進行初始化。
因為團隊發現,無論是在兩階段訓練或一階段訓練設定下,程式碼訓練比起通用資料訓練都可以提升模型的數學能力。
在Coder的基礎上,研究團隊繼續訓練了5000億token,資料分佈如下圖:
訓練數據方面,DeepSeekMath使用的是從Common Crawl提取的120B高品質數學網頁數據,得到了DeepSeekMath Corpus,總數據量是開源數據集OpenWebMath的9倍。
資料收集過程是迭代式進行的,經過四次迭代,研究團隊收集了3500多萬個數學網頁,Token數量達到了1200億。
為了確保訓練資料中不包含測試集的內容(因為GSM8K、MATH中的內容在網路上大量存在),研究團隊還專門進行了過濾。
為了驗證DeepSeekMath Corpus的資料質量,研究團隊分別用MathPile等多個資料集訓練了1500億token,結果Corpus在多個數學基准上效果明顯領先。
對齊階段,研究團隊首先建構了一個776K樣本的中英文數學指導監督微調(SFT)資料集,其中包括CoT、PoT和工具整合推理等三種格式。
而在強化學習(RL)階段,研究團隊使用了一種名為「基於群組的相對策略最佳化」(Group Relative Policy Optimization ,GRPO)的高效演算法.
GRPO是近端策略最佳化(PPO)的變體,過程中傳統的價值函數被替換為基於群組的相對獎勵估計,可以減少訓練過程中的計算和記憶體需求。
同時,GRPO透過迭代過程進行訓練,獎勵模型會根據策略模型的輸出不斷更新,以確保策略的持續改進。
曾推出首個國產開源MoE模型
#推出DeepSeekMath的深度求索團隊,是國內開源模型領域的一名「頭部選手」。
先前,該團隊就曾推出首個國產開源MoE模型DeepSeek MoE,它的7B版本以40%的計算量擊敗了相同規模的密集模型Llama 2。
作為通用模型,DeepSeek MoE在程式碼和數學任務上的表現就已十分亮眼,而且資源消耗非常低。
程式碼方面,團隊推出的DeepSeek-Coder的程式設計能力在程式碼產生、跨檔案程式碼補全、以及程式解數學題等多個任務上均超過了同等規模的開源標竿CodeLllama。
同時,它也擊敗了GPT-3.5-Turbo,成為最接近GPT-4-Turbo的開源程式碼模型。
如前文所說,此次推出的DeepSeekMath,也正是在Coder的基礎之上打造的。
而在X上,已經有人開始在期待Coder和Math的MoE版本了。
論文網址:https://arxiv.org/abs/2402.03300
以上是7B開源數學模型幹翻千億GPT-4,中國團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。
