7B开源数学模型干翻千亿GPT-4，中国团队出品-人工智能-PHP中文网

7B模型力压群雄

基于代码模型打造

曾推出首个国产开源MoE模型

首页

科技周边

人工智能

7B开源数学模型干翻千亿GPT-4，中国团队出品

王林

Feb 07, 2024 pm 05:03 PM

ai 数据

7B开源模型，数学能力超过了千亿规模的GPT-4！

它的表现可谓是突破了开源模型的极限，连阿里通义的研究员也感叹缩放定律是不是失效了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

无需借助任何外部工具，它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中，它第一个在该数据集上达到一半的准确率，甚至超过了早期和API版本的GPT-4。

7B开源数学模型干翻千亿GPT-4，中国团队出品

这一表现让整个开源社区震惊，Stability AI的创始人Emad Mostaque称赞研发团队令人印象深刻，潜力被低估了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

它，就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力，研究团队使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链（CoT）提示的情况下，DeepSeekMath的表现均超越了其他开源模型，其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比，DeepSeekMath的成绩也有大幅提升。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果考虑闭源模型，DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5，在中文的CMATH上超越了GPT-4，MATH上的表现也与之接近。

但要注意的是，GPT-4按泄露规格是一个千亿参数的庞然大物，而DeepSeekMath参数量只有7B。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果允许使用工具（Python）进行辅助，DeepSeekMath在竞赛难度（MATH）数据集上的表现还能再提高7个百分点。

7B开源数学模型干翻千亿GPT-4，中国团队出品

那么，DeepSeekMath优异表现的背后，都应用了哪些技术呢？

基于代码模型打造

为了获得比从通用模型更好的数学能力，研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现，无论是在两阶段训练还是一阶段训练设置下，代码训练相比于通用数据训练都可以提升模型的数学能力。

7B开源数学模型干翻千亿GPT-4，中国团队出品

在Coder的基础上，研究团队继续训练了5000亿token，数据分布如下图：

7B开源数学模型干翻千亿GPT-4，中国团队出品

训练数据方面，DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据，得到了DeepSeekMath Corpus，总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的，经过四次迭代，研究团队收集了3500多万个数学网页，Token数量达到了1200亿。

7B开源数学模型干翻千亿GPT-4，中国团队出品

为了确保训练数据中不包含测试集的内容（因为GSM8K、MATH中的内容在互联网上大量存在），研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量，研究团队分别用MathPile等多个数据集训练了1500亿token，结果Corpus在多个数学基准上效果明显领先。

7B开源数学模型干翻千亿GPT-4，中国团队出品

对齐阶段，研究团队首先构建了一个776K样本的中英文数学指导监督微调（SFT）数据集，其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习（RL）阶段，研究团队使用了一种名为“基于组的相对策略优化”（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO是近端策略优化（PPO）的一种变体，过程中传统的价值函数被替换为一个基于组的相对奖励估计，可以减少训练过程中的计算和内存需求。

同时，GRPO通过迭代过程进行训练，奖励模型会根据策略模型的输出不断更新，以确保策略的持续改进。

7B开源数学模型干翻千亿GPT-4，中国团队出品

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队，是国内开源模型领域的一名“头部选手”。

此前，该团队就曾推出过首个国产开源MoE模型DeepSeek MoE，它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型，DeepSeek MoE在代码和数学任务上的表现就已十分亮眼，而且资源消耗非常低。

7B开源数学模型干翻千亿GPT-4，中国团队出品

代码方面，该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时，它也击败了GPT-3.5-Turbo，成为最接近GPT-4-Turbo的开源代码模型。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如前文所说，此次推出的DeepSeekMath，也正是在Coder的基础之上打造的。

而在X上，已经有人开始在期待Coder和Math的MoE版本了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

论文地址：https://arxiv.org/abs/2402.03300

以上是7B开源数学模型干翻千亿GPT-4，中国团队出品的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7742

Java教程

1643

CakePHP 教程

1397

Laravel 教程

1291

PHP教程

1233

显示更多

Related knowledge

WorldCoin（WLD）价格预测2025-2031：到2031年WLD会达到4美元吗？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。 WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思？跨链交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，这些平台通过各种技术支持多链资产交易。

虚拟币价格上涨或者下降是为什么虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括：1.市场需求增加，2.供应量减少，3.利好消息刺激，4.市场情绪乐观，5.宏观经济环境；下降因素包括：1.市场需求减少，2.供应量增加，3.利空消息打击，4.市场情绪悲观，5.宏观经济环境。

如何在币安拿下 KERNEL 空投奖励全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里，新机遇总是不断涌现。当下，KernelDAO (KERNEL) 空投活动正备受瞩目，吸引着众多投资者的目光。那么，这个项目究竟是什么来头？BNB Holder 又能从中获得怎样的好处？别急，下面将为你一一揭晓。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议，已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议，已为AAVEDAO实现了一个法定人数。AAVE连锁计划（ACI）创始人马克·泽勒（MarcZeller）在X上宣布了这一点，并指出它标志着该协议的新时代。AAVE连锁倡议（ACI）创始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE协议令牌和引入令牌回购，已为AAVEDAO实现了法定人数。根据Zeller的说法，这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议，即在周三以每周100

混合型区块链交易平台有哪些 Apr 21, 2025 pm 11:36 PM

选择加密货币交易所的建议：1. 流动性需求，优先选择币安、Gate.io或OKX，因其订单深度与抗波动能力强。2. 合规与安全，Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能，KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

币圈行情实时数据免费平台推荐前十名发布 Apr 22, 2025 am 08:12 AM

适合新手的加密货币数据平台有CoinMarketCap和非小号。1. CoinMarketCap提供全球加密货币实时价格、市值、交易量排名，适合新手与基础分析需求。2. 非小号提供中文友好界面，适合中文用户快速筛选低风险潜力项目。

Rexas Finance（RXS）可以在2025年超过Solana（Sol），Cardano（ADA），XRP和Dogecoin（Doge） Apr 21, 2025 pm 02:30 PM

在波动剧烈的加密货币市场中，投资者正寻求超越热门币种的替代方案。Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密货币，尽管占据着一定的市场地位，但也面临着市场情绪、监管不确定性和可扩展性等挑战。然而，一个新兴项目RexasFinance(RXS)正在崭露头角。它并非依靠名人效应或炒作，而是专注于将现实世界资产(RWA)与区块链技术结合，为投资者提供一种创新的投资方式。这一策略使其有望成为2025年最成功的项目之一。RexasFi

See all articles

7B开源数学模型干翻千亿GPT-4，中国团队出品

7B模型力压群雄

基于代码模型打造

曾推出首个国产开源MoE模型

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题