目录
通过 PCFG 的句法性质调节数据复杂度
用 gzip 可压缩率度量句法复杂度
Scaling law 对数据复杂度敏感吗?
根据 gzip 可压缩率计算数据敏感的 Scaling law
将句法参数作为可压缩率的一个混杂变量而消除掉
首页 科技周边 人工智能 不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

Jun 07, 2024 pm 05:51 PM
ai 模型

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡这两项因素。 增加模型参数量的好处是可以提高模型的复杂度和表达能力,从而更好地拟合训练数据。然而,过多的参数可能导致过拟合,使得模型在未见过的数据上表现不佳。 另一方面,扩大数据集大小可以提高模型的泛化能力,减少过拟合问题。

我们告诉你们:只要能适当分配参数和数据,就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的Scaling law,而这些研究通常得出的结论是参数和训练token数量应当一比一地扩展。

但是,之前的语言模型 Scaling law 研究都是基于在散乱的网络文本上训练的 Transformer 得到的。这是一种非常特定的数据分布,因此我们自然会问:基于这样的网络文本数据集得到的 Scaling law 是否可以泛化到其它分布?

除了当前的语言模型(即Chinchilla)只是针对网络文本数据的具体案例,而背后还有一个基于训练数据属性更广泛的Scaling law。考虑到提升数据质量能显著提升语言模型的性能,并强化学习的Scaling law 也许会随博弈强度而缩放。也许我们可以假设:当前的语言模型 Scaling law(即 Chinchilla)只是针对网络文本数据的具体案例,其背后还有一个基于训练数据属性更广泛的 Scaling law。

那么,神经 Scaling law 对训练用的 token 序列数据集的哪些性质敏感呢?换句话说,如果我们想要准确预测如何以最佳方式为训练过程分配计算量,我们该观测数据的哪些属性?另外,Scaling law 的数据依赖性质仅仅是个理论问题,还是说对真实世界数据集也很重要?

为了探究这些问题,AI数据公司Reworkd的研究员Rohan Pandey做了一番调查,得到了这些问题的答案;另外他还提出了一种压缩算法gzip,可预测数据复杂性对扩展性质的影响。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

  • 论文标题:gzip Predicts Data-dependent Scaling Laws
  • 论文链接:https://arxiv.org/pdf/2405.16684

他的研究方法是:在可以直观控制复杂度的文本数据设置下,以信息论方法理解 Scaling law 的数据依赖性的原因。

他最终找到的设置名为概率上下文无关语法(PCFG,最早由乔姆斯基于1956年提出)。该设置相对自然(可以建模自然语言、代码等),句法复杂度可控,遵循一些已被很好理解的信息论原理。

实验中,通过调整 PCFG 的句法性质,他生成了 6 个具有不同复杂度的数据集。对于每个数据集,他又训练了 6 个不同大小的语言模型(参数量从 4.4M 到 1.4B),并记录了这些语言模型在 6 种不同训练步数(100K 到 100M token)下的结果。然后,他为每个数据集都拟合了一个 Scaling law,发现 Scaling law 的参数会随句法复杂度而有意义地变化。遵循之前有关形式语法的熵的研究,对于复杂度度量,他使用的是数据集中每个 token 序列的可压缩率(compressibility)中值,这能通过 gzip 轻松计算出来。

结果发现,随着训练数据的可压缩率降低(更加复杂),Scaling law 的计算最优边界也会逐渐从参数量偏向数据大小。然后,他测量了真实世界的代码和自然语言数据集的可压缩率,结果发现前者的可压缩率更大,因此可预测其服从不同的 Scaling law。

通过 PCFG 的句法性质调节数据复杂度

概率式上下文无关语法(PCFG)是计算语言学的一种基础工具,可用于建模自然语言的句法。PCFG 是对标准的上下文无关语法(CFG)的扩展,即在生成规则中关联了概率,从而能以一种可量化的方式表征语言的模糊性和可变性。这些语法会生成树,其中每个节点都表示一个句法类别,每条边则表示用于生成句子的生成规则。在根据 PCFG 生成句子时,会以概率方式采样应用生成规则的序列,直到该树的所有叶节点都是端点(实际的词汇 token)。

我们可以控制 PCFG 的句法性质,以自然方式调节文本数据集的复杂度。具体来说,PCFG 创建函数可接收的参数包括:端点的数量、非端点的数据、生成规则右侧的最大长度、任何非端点允许的生成规则的最大数量(如果这个值为 1,则给定的非端点将始终得到同样的右侧)。直观而言,以上每个值的增长都会导致句法复杂度增大。

为了基于以上参数创建 PCFG,对于每个端点,都随机选取其生成数量(RHS 选项)、这些生成的每个长度,通过从端点和非端点随机采样来实例化生成规则,并为其分配一个概率(根据非端点的总 RHS 选项而进行了归一化)。然后,收集所有为全部非端点生成的生成规则,并使用基于 NLTK 构建的 PCFG 软件包实例化一个语法。

再使用该语法(在给定约束下随机创建的)来概率式地采样句子,以构建 token 序列数据集。为了后面更容易比较在不同语法(生成不同平均长度的句子)上的训练情况,他决定将句子采样到同等 token 数量的文档中。持续基于语法采样句子,直到填满上下文长度,如有溢出,则直接截断句子。

句子由仅为整数的端点构成,因此可以被视为语言模型的 token ID;再使用未被使用的整数 0(可有效对应于自然语言中的句号)将句子连接起来。澄清一下,这里不是生成「看起来」像自然语言的字符串再进行 token 化 ——PCFG 是直接生成 token ID 本身的序列。现在,可以根据 6 组初始语法约束生成 6 个有不同复杂度的 token 序列数据集了。

用 gzip 可压缩率度量句法复杂度

为了估计生成数据集以及真实数据集的复杂度,Rohan Pandey 选择使用一种压缩算法 gzip。

gzip 的一个优点是已有很好的理论研究基础,它们表明:可压缩率(compressibility)与熵成反比,而熵与句法复杂度成正比。具体来说,针对数据集中 1000 个 token 构成的每个 token 序列,使用 gzip 并计算压缩后数据与原始数据的大小(字节数)之比。

然后,计算可压缩率的中值和标准差,确认有更高句法复杂度的语法会得到更难压缩的数据集。

表 1 列出了每个语法的句法参数和测得的压缩率。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

可以观察到,随着非端点(语法类别)、端点(token)、右侧选项和右侧长度的增长,gzip 压缩率也会增长,即变得更难压缩。

图 1 绘出了这些数据集以及自然语言和代码数据的情况。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

可以看到,在复杂度方面,某些 PCFG 数据集与代码数据相近(易于压缩的部分),而另一些则与自然语言相近。

Scaling law 对数据复杂度敏感吗?

为了确定数据集的 Scaling law,该研究者在不同大小的数据子集(100K、1M、5M、20M、50M、100M token)上训练了几个不同大小(参数量为 4.2M、8.8M、20.3M、59.0M、275.3M、1.4B)的模型,表 6 给出了其架构详情;然后他在所得损失结果上进行幂律拟合。大多数实验都是在 4 台有 80 GB VRAM 的英伟达 A100 上完成的,使用了 PyTorch FSDP。

如图 2 所示,如果一个数据集更容易压缩(可压缩率越低),模型的收敛速度就越快。这符合我们的直观认识。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

尽管这表明我们需要更多计算量去建模更复杂的数据集,但我们还是需要更多证据才能确定计算最优边界是否会直接根据数据复杂度而变化。为了确立 Scaling law 对数据复杂度的非平凡的敏感性,需要计算每个数据集的 Scaling law 并调查其拟合参数。

根据 gzip 可压缩率计算数据敏感的 Scaling law

Hoffmann et al. 在 2022 年提出的 Scaling law 函数形式是将训练损失作为模型和数据大小的函数:

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

其中 N 是模型的参数量,D 是训练数据集的 token 数量。他们宣称 E 是「自然文本的熵」且 Scaling law「与数据集无关」。但是,当 Rohan Pandey 在 PCFG 数据集上拟合训练结果与该函数时,却发现每个数据集的 Scaling law 大不相同,见表 2。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

该 Scaling law 可为参数量得到一个计算最优边界(由 Kaplan et al. [2020] 和 Hoffmann et al. [2022])推导得出,可简化为:

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

其中 C 是计算预算,单位 FLOPs。

图 3 绘出了 Chinchilla 的计算最优边界以及每个 PCFG 数据集拟合得到的 Scaling law。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

可以看到,随着数据越来越难压缩,拟合得到的 Scaling law 的边界逐渐变得偏向于数据,在 0.23 < gzip 可压缩率 < 0.45 区间中某个点时越过 Chinchilla 的一比一边界。

为了根据数据集的可压缩率预测 Scaling law 参数,可在每个数据集的拟合 Scaling law 参数上进行简单的线性回归拟合。之前我们提到,针对数据集 D,计算可压缩率 H 的方法是:先计算每个元素 d 压缩后比特量与原始比特量的比值,然后再计算所有元素的平均值。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

一旦从 H 拟合出预测每个参数(E, A, B, α, β)的线,就可以将每个参数重新定义成可压缩率的一个函数:

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

其中 m_x 和 n_x 是拟合后线性回归的参数。

表 3 给出了这些拟合后的值(以及回归的 p 值),图 4 则是这些线性回归的可视化结果。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

它们几乎都是单调递减的,只是速率不同,而在 H 约 0.27 的位置,α 和 β 相交。需要指出,E(原本设定为常数的「自然语言的熵」)是唯一一个会随 H 增大的参数(但不明显)。

现在就可以将 (1) 式重新参数化为可压缩率 H 的函数:

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

但是,由于这里的实验规模相当小,并且主要集中于 PCFG 数据集,因此 Pandey 又对该函数进行了扩展 —— 调整 Chinchilla 后得到了数据依赖型的 Scaling law:

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

其中 ε 是对训练数据的 gzip 压缩率的调整权重,加 ' 的参数是 Chinchilla 常量。

将句法参数作为可压缩率的一个混杂变量而消除掉

上面的实验并没有解决这一可能性:这个可压缩率度量混杂了某个底层的句法属性(如词汇库大小)。为了解决这一问题,图 5 给出了另外的结果。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

可以看到,当维持词汇库大小稳定不变并改变其它句法性质(表 4)时,gzip 可压缩率依然可以预测 Scaling law 的参数变化情况(相关性甚至强于增加词汇量的设置)。

图 6 则是实证中找到的反例,这表明当句法性质变化范围很大(表 5)但这些数据集的最终 gzip 可压缩率一样时,Scaling law 参数并不会有显著变化。

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

尽管在这个同等词汇案例中并未观察到图 4 中那样的相交行为,但 α 的斜率依然比 β 陡(A 也比 B 陡),这说明随着 gzip 可压缩率增大,有同样的偏向数据的现象。

因此,可以说这些结果表明:Scaling law 依赖于训练数据,而 gzip 可压缩率可以很好地预测数据复杂度对扩展性质的影响。

以上是不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1671
14
CakePHP 教程
1428
52
Laravel 教程
1331
25
PHP教程
1276
29
C# 教程
1256
24
给MySQL表添加和删除字段的操作步骤 给MySQL表添加和删除字段的操作步骤 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时,需指定位置以优化查询性能和数据结构;删除字段前需确认操作不可逆;使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

数字虚拟币交易平台top10 安全可靠的十大数字货币交易所 数字虚拟币交易平台top10 安全可靠的十大数字货币交易所 Apr 30, 2025 pm 04:30 PM

数字虚拟币交易平台top10分别是:1. Binance,2. OKX,3. Coinbase,4. Kraken,5. Huobi Global,6. Bitfinex,7. KuCoin,8. Gemini,9. Bitstamp,10. Bittrex,这些平台均提供高安全性和多种交易选项,适用于不同用户需求。

量化交易所排行榜2025 数字货币量化交易APP前十名推荐 量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

如何使用MySQL的函数进行数据处理和计算 如何使用MySQL的函数进行数据处理和计算 Apr 29, 2025 pm 04:21 PM

MySQL函数可用于数据处理和计算。1.基本用法包括字符串处理、日期计算和数学运算。2.高级用法涉及结合多个函数实现复杂操作。3.性能优化需避免在WHERE子句中使用函数,并使用GROUPBY和临时表。

deepseek官网是如何实现鼠标滚动事件穿透效果的? deepseek官网是如何实现鼠标滚动事件穿透效果的? Apr 30, 2025 pm 03:21 PM

如何实现鼠标滚动事件穿透效果?在我们浏览网页时,经常会遇到一些特别的交互设计。比如在deepseek官网上,�...

MySQL批量插入数据的高效方法 MySQL批量插入数据的高效方法 Apr 29, 2025 pm 04:18 PM

MySQL批量插入数据的高效方法包括:1.使用INSERTINTO...VALUES语法,2.利用LOADDATAINFILE命令,3.使用事务处理,4.调整批量大小,5.禁用索引,6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE,这些方法能显着提升数据库操作效率。

轻松协议(Easeprotocol.com)将ISO 20022消息标准直接实现为区块链智能合约 轻松协议(Easeprotocol.com)将ISO 20022消息标准直接实现为区块链智能合约 Apr 30, 2025 pm 05:06 PM

这种开创性的开发将使金融机构能够利用全球认可的ISO20022标准来自动化不同区块链生态系统的银行业务流程。Ease协议是一个企业级区块链平台,旨在通过易用的方式促进广泛采用,今日宣布已成功集成ISO20022消息传递标准,直接将其纳入区块链智能合约。这一开发将使金融机构能够使用全球认可的ISO20022标准,轻松自动化不同区块链生态系统的银行业务流程,该标准正在取代Swift消息传递系统。这些功能将很快在“EaseTestnet”上进行试用。EaseProtocolArchitectDou

如何分析MySQL查询的执行计划 如何分析MySQL查询的执行计划 Apr 29, 2025 pm 04:12 PM

使用EXPLAIN命令可以分析MySQL查询的执行计划。1.EXPLAIN命令显示查询的执行计划,帮助找出性能瓶颈。2.执行计划包括id、select_type、table、type、possible_keys、key、key_len、ref、rows和Extra等字段。3.根据执行计划,可以通过添加索引、避免全表扫描、优化JOIN操作和使用覆盖索引来优化查询。

See all articles