首页 硬件教程 硬件测评 10 行代码让大模型数学提升 20%,'野路子”研究谷歌也测上了,主要作者全靠自学成才

10 行代码让大模型数学提升 20%,'野路子”研究谷歌也测上了,主要作者全靠自学成才

Aug 27, 2024 pm 03:31 PM
谷歌 模型 研究 数学 开源 作者 主要

只要不到 10 行代码,就能让大模型数学能力(GSM8k)提升 20%!

几名独立学者提出了大模型采样的改进方案,引起了开源社区的关注。

目前该方法已在 Mistral-7B 上取得成效,在 Llama3-70B 上的测试也正在进行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

这种方法叫做最小 p 采样(min-p sampling),目的是平衡生成文本的连贯性和多样性。

简单说就是让模型在不同场合发挥不同的特性,例如在事实问题上保持性能稳定,在写作等场景中又能发挥创意。

目前该方法已在 Mistral-7B 上取得成效,在 Llama-70B 上的测试也即将进行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在论文中作者提到,该方法已经获得了开源社区的广泛应用。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同时作者还透露,Anthropic 和谷歌等闭源模型厂商也已经或正在针对 min-p 进行测试。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

消息也得到了谷歌方面的确认,从 OpenAI 跳槽到谷歌的开发者社区负责人Logan Kilpatrick已经回复说 "On it"(在做了)。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

微软 Copilot 的研究人员Abram Jackson看了后表示,这是他看到的首个有关推理过程 token 采样的改进,未来还有很大进步空间。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

值得一提的是,这项受到广泛关注的研究,主要作者 Minh Nhat Nguyen 根本没系统学过 CS,而是靠自学成才。

在一家名为 Apart Research 的 AI 安全研究机构帮助下,Minh 和团队其他成员一起完成了该项目。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

动态调整抽样阈值

min-p 是一种动态截断抽样方法,其核心是根据每一步 token 分布的最大概率,来缩放最小概率阈值。

这样做的目的,主要在于平衡生成文本的连贯性和多样性,特别是在 temperature 较高的条件下。

具体来说,min-p 引入了一个基础概率阈值p_base,表示进入采样池的最低概率要求。

在每一步生成 token 时,min-p 会将 p_base 与当前概率分布中最大的 token 概率 p_max 相乘,得到一个缩放后的绝对阈值p_scaled。

只有概率大于等于 p_scaled 的 token,才能够进入采样池。

当模型对某个 token 的预测概率非常高(即 p_max 很大)时,p_scaled 的值也会很高,导致采样池大幅缩小,绝大多数低概率 token 被过滤,只留下少数高把握的选择,确保了输出的连贯性;

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

而当模型对所有 token 的预测概率都比较接近(p_max 较低)时,p_scaled 的值也会相应变低,放宽了对采样池的要求,纳入更多中等概率的 token,给予模型更多发挥空间,生成更加多样化的内容。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在确定采样池后,min-p 会根据 temperature 对 token 概率分布进行缩放。

它将 token 的对数概率除以一个温度参数 τ,并进行归一化后,就得到了 temperature 缩放后的概率分布。

大于 1 的 τ 值会使概率分布更加平缓,增加低概率 token 被选中的机会;

τ 小于 1 时则会使分布更加尖锐,强化高概率 token 的优势。

最后,min-p 从缩放后的采样池中,按照调整后的概率分布,随机抽取下一个 token。

稳定性和创意," 我全都要 "

min-p 方法的效果究竟如何呢?作者使用了Mistral-7B作为基础模型进行了测试,我们来分场景看一下结果。

在推理任务中,作者采用了 GPQA 数据集。当 temperature 为 1 时,可以看到 min-p 相比于过去的 top-p 显现出了微小的优势。

随着 temperature 增加,GPQA 得分整体上呈现出了下降趋势,但可以观察到 min-p 的下降明显比 top-p 更慢。

直到 temperature 达到 3 时 min-p 的下降趋势才变得明显,此时 top-p 的得分已接近 0。

也就是说,相比于 top-p,min-p在推理任务中更好地保持了所需要的稳定性。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同样需要保持稳定性能的还有数学类任务,这里作者使用了 GSM8K 数据集进行了测试。

结果 min-p 所对应的分数随 temperature 的下降比在 GPQA 中更快,但仍然缓于 top-p 方式。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

第三类任务是创意写作,这时对稳定性的要求就不是那么高了,而是需要模型发挥更多的创意。

这项测试使用 AlpacaEval 数据集完成,实验数据是从开源社区的一名独立评估者那里获得的。

实验结果显示,在 temperature=1.5、min-p=0.1 的设置下,min-p 的性能尤其突出,可生成 top-p 方法难以生成的创意写作内容。

在该参数下,min-p 方法得到的文本获得了 58.12% 的人类评判优选率,远高于其他方法在类似设置下的表现。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

论文地址:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper/

参考链接:

https://x.com/menhguin/status/1826132708508213629

以上是10 行代码让大模型数学提升 20%,'野路子”研究谷歌也测上了,主要作者全靠自学成才的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1248
24
加密数字资产交易APP推荐top10(2025全球排名) 加密数字资产交易APP推荐top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

欧易okex账号怎么注册、使用、注销教程 欧易okex账号怎么注册、使用、注销教程 Mar 31, 2025 pm 04:21 PM

本文详细介绍了欧易OKEx账号的注册、使用和注销流程。注册需下载APP,输入手机号或邮箱注册,完成实名认证。使用方面涵盖登录、充值提现、交易以及安全设置等操作步骤。而注销账号则需要联系欧易OKEx客服,提供必要信息并等待处理,最终获得账号注销确认。 通过本文,用户可以轻松掌握欧易OKEx账号的完整生命周期管理,安全便捷地进行数字资产交易。

binance怎么注册详细教程(2025新手指南) binance怎么注册详细教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance币安注册及安全设置的完整指南,涵盖注册前的准备工作(包括设备、邮箱、手机号及身份证明文件准备),详细介绍了官网及APP两种注册方式,以及不同级别的身份验证(KYC)流程。此外,文章还重点讲解了如何设置资金密码、开启双重验证(2FA,包括谷歌身份验证器和短信验证)以及设置防钓鱼码等关键安全步骤,帮助用户安全便捷地注册和使用Binance币安平台进行加密货币交易。 请务必在交易前了解相关法律法规及市场风险,谨慎投资。

如何优化jieba分词以改善景区评论的关键词提取效果? 如何优化jieba分词以改善景区评论的关键词提取效果? Apr 01, 2025 pm 06:24 PM

如何优化jieba分词以改善景区评论的关键词提取?在使用jieba分词处理景区评论数据时,如果发现分词结果不理�...

gate.io手机app使用教程 gate.io手机app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手机app使用教程:1、安卓用户,访问 Gate.io 官方网站,下载安卓安装包,您可能需要在手机设置中允许安装来自未知来源的应用;2、ios用户,在 App Store 中搜索 "Gate.io" 下载。

虚拟币最老的币排行榜最新更新 虚拟币最老的币排行榜最新更新 Apr 22, 2025 am 07:18 AM

虚拟货币“最老”排行榜如下:1. 比特币(BTC),发行于2009年1月3日,是首个去中心化数字货币。2. 莱特币(LTC),发行于2011年10月7日,被称为“比特币的轻量版”。3. 瑞波币(XRP),发行于2011年,专为跨境支付设计。4. 狗狗币(DOGE),发行于2013年12月6日,基于莱特币代码的“迷因币”。5. 以太坊(ETH),发行于2015年7月30日,首个支持智能合约的平台。6. 泰达币(USDT),发行于2014年,是首个与美元1:1锚定的稳定币。7. 艾达币(ADA),发

虚拟币购买app安全靠谱的top10推荐 虚拟币购买app安全靠谱的top10推荐 Mar 18, 2025 pm 12:12 PM

2025年全球虚拟币交易平台Top 10推荐,助您玩转数字货币市场!本文将为您深度解析币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家顶级平台的核心优势和特色功能。无论是追求高流动性、丰富的交易类型,还是注重安全合规、创新功能,都能在此找到适合您的平台。 我们将从交易品种、安全性、特色功能等方面进行全面对比,助您选择最合适的虚拟货币交易平台,把握2025年数字货币投资机遇

okex交易平台官网登录入口 okex交易平台官网登录入口 Mar 18, 2025 pm 12:42 PM

本文详细介绍了欧易OKEx网页版登录的完整步骤,包括准备工作(确保网络连接稳定及浏览器更新)、访问官网(注意网址准确性,避免钓鱼网站)、找到登录入口(点击官网首页右上角的“登录”按钮)、输入登录信息(邮箱/手机号及密码,支持验证码登录)、完成安全验证(滑动验证、谷歌验证或短信验证)等五个步骤,最终成功登录后即可进行数字资产交易等操作。 安全便捷的登录流程,保障用户资产安全。

See all articles