模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准-人工智能-PHP中文网

U-shaped scaling

CoT prompt 对 Inverse Scaling 的影响

首页

科技周边

人工智能

模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 12:04 PM

谷歌模型

随着语言模型变得越来越大（参数数量、使用的计算量和数据集大小都变大），它们的表现似乎也原来越好，这被称为自然语言的 Scaling Law。这一点已经在很多任务中被证明是正确的。

或许，也存在某些任务的结果会因模型规模的增加反而变得糟糕。这类任务被称为 Inverse Scaling，它们可以指示出训练数据或优化目标是否存在某种缺陷。

今年，纽约大学的几位研究者组织了一项较为另类的竞赛：寻找一些大模型不擅长的任务。在这些任务上，语言模型越大，性能反而越差。

为了鼓励大家参与识别 Inverse Scaling 任务，他们创立了 Inverse Scaling 奖，获奖的投稿任务将从 25 万美元的奖金池中获得奖励。发布该奖的专家会根据一系列标准对提交的内容进行评价：标准包括 Inverse Scaling 的强度、任务重要性、新颖性、任务覆盖率、可再现性和 Inverse Scaling 的通用性。

比赛共有两轮，第一轮截止时间是 2022 年 8 月 27 日，第二轮截止时间是 2022 年 10 月 27 日。两轮中的第一轮收到了 43 份提交，其中四项任务被授予三等奖，它们将被纳入最终的 Inverse Scaling 基准。

相关的研究成果，被谷歌的几位研究者总结在了一篇论文里：

论文链接：https://arxiv.org/pdf/2211.02011.pdf

这四项任务的 Inverse Scaling 应用在了三个语言模型，模型的参数跨越三个量级：Gopher（42M–280B）、Chinchilla（400M–70B）和 Anthropic internal model（13M–52B）。获得 Inverse Scaling 奖励的任务是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相关任务示例如图 1 所示。

在论文中，作者对这四个任务的缩放表现进行了详细研究。

作者首先在 PaLM-540B 模型上进行评估，该模型的计算量是 Inverse Scaling 奖提交文件中的评估模型的 5 倍。有了 PaLM-540B 的对比，作者发现，四个任务中有三个表现出称之为 U 型缩放的特性：性能先是随着模型规模增大降到一定程度，然后随着模型的增大性能再次上升。

作者认为，当一项任务同时包含「true task」和「distractor task」时，会出现 U 型缩放。中等模型可能会执行「distractor task」，从而影响性能，而更大的模型可能会忽略「distractor task」并且能执行「true task」。作者对 U 型缩放的发现与 BIG-Bench 任务（如 TruthfulQA、识别数学定理）的结果一致。U 型缩放的含义是，Inverse Scaling 曲线可能不适用于更大的模型，因为性能可能会继续下降，也可能会开始上升。

接着，作者探索了 chain-of-thought（CoT）的 prompt 是否改变了这些任务的缩放。与不使用 CoT 的 prompt 相比，使用 CoT 的 prompt 会激励模型将任务分解为多个中间步骤。作者的实验表明，使用 CoT 让三个 U 型缩放任务中的两个变为了 Positive Scaling 曲线，其余任务从 Inverse Scaling 变成 Positive Scaling。使用 CoT 的 prompt 时，大型模型甚至在 Redefine Math. 中的两个任务和八个子任务中的七个任务上实现了 100% 的准确率。

结果表明，「Inverse Scaling」这一术语其实并不明确，因为对于一个 prompt，给定的任务可能是 Inverse Scaling，但对于不同的 prompt ，则可能是 Positive Scaling 也可能是 U 型缩放。

U-shaped scaling

在这一部分，作者分别使用原始论文中提出的 8B、62B 和 540B 的 Palm 模型，评估了 Palm 模型在四个 Inverse Scaling 奖的任务上的表现，还包括 40B tokens 训练得到的 1B 模型（其计算量约为 0.2 zettaFLOP）。单个 Palm-540B 的参数大约是 Inverse Scaling 奖中评估的最大模型 (Gopher-280B) 的两倍，计算量约为 2.5K zettaFLOP，而 Chinchilla-70B 的计算量仅有 560 zettaFLOP。

作者在遵循 Inverse Scaling 奖的默认设置之外，也做了小的修改，比如使用 free-form generation（其后紧接着是精确的字符串匹配，而非排名分类），后者比较了 Prompt 的两个可能延续的概率。作者同时对 Prompt 进行了小的修改以适应 free-form generation，即所有 Prompt 都至少是单次的，输入 prompt 中提供了答案选项，prompt 让模型输出「the answer is」。

具体形式如图 1 所示。作者认为这是合理的，因为这种形式与最近研究 prompt 的工作是一致的，之前评估的模型和 PaLM 8B/62B 之间的经验表现相似(作者在本文中使用的所有 prompt 都是可用的。)

图 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四个任务上的结果：

在 Negation QA 任务上，Palm-62B 的准确率同 Palm-8B 模型相比大幅下降，而 Palm-540B 模型的准确率又有所提高；
在 Hindsight Neglect 任务上，Palm-8B 和 Palm-62B 的准确率下降到远低于随机数的水平，但 Palm-540B 的准确率却达到了 100%；
在 Quote Repetition 任务上，准确率从 Palm-8B 的 86% 下降到 Palm-62B 的 81%，但 Palm-540B 的准确率却达到了 100%。事实上，在 Quote Repetition 任务中，Gopher 和 Chinchilla 模型已经显示出 U 型缩放的迹象。

这四项任务中的例外是 Redefine Math，因为即使是 Palm-540B，它也没有显示任何 U 型缩放的迹象。因此，对于目前存在的大模型，还不清楚这项任务是否会变成 U 型缩放。或者它是否真的会是 Inverse Scaling 呢？

对于 U 型缩放的一个问题是：为什么性能会先下降后又上升？

作者给出一个推测假设：即每个 Inverse Scaling 奖中的任务可以分解为两个任务 (1)「true task」和(2)影响性能的「distractor task」。由于小模型不能完成这两个任务，只能达到随机准确度附近的性能。中等模型可能会执行「distractor task」，这会导致性能下降。大型模型能够忽略分「distractor task」，执行「true task」让性能的提高，并有可能解决任务。

图 5 展示了潜在的「distractor task」。虽然可以仅在「distractor task」上测试模型的性能，但这是一个不完美的消融实验，因为「distractor task」和「true task」不仅可能相互竞争，而且可能对性能产生联合影响。接下来作者进一步解释为什么会出现 U 型缩放以及未来需做的工作。

CoT prompt 对 Inverse Scaling 的影响

接下来，作者探索了使用不同类型 prompt 时，Inverse Scaling 奖的 4 个任务的缩放是如何变化的。虽然 Inverse Scaling 奖的发起者使用了基本的 prompt 策略，即在指令中包括少样本， chain-of-thought(CoT)激励模型在给出最终答案之前输出中间步骤，这可以在多步骤推理任务中大幅提高性能。即没有 CoT 的 prompt 是模型能力的下限。对于某些任务，CoT 的 prompt 能更好代表模型的最佳性能。

图 3 的上半部分是 CoT 的 prompt 示例，下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情况下的表现。

对于 Negation QA 和 Hindsight Neglect，CoT 的 prompt 使缩放曲线从 U 型变为正向的。对于 Quote Repetition，CoT 的 prompt 仍呈显 U 型曲线，尽管 Palm-8B 和 Palm-62B 的性能明显更好，并且 Palm-540B 准确率达到 100%。

图 4 展示了 Redefine Math 在有 CoT 的 prompt 情况下的结果。该任务实际上由 8 个子任务组成，每个子任务都有不同的指令，因此作者还按子任务对性能进行了划分，以探索子任务是否具有相同的缩放行为。总之，CoT 的 prompt 对所有子任务都显示出 Positive Scaling，8 个子任务中有 7 个在 Palm-62B 和 Palm-540B 模型上实现了 100% 的准确率。但是对于「+ as digit」和「+ as random number」子任务，就算使用 Palm-540B，也显示出明显的 Inverse Scaling 曲线。

综上所述，所有被研究的任务和子任务，在使用 CoT 的 prompt 时都呈现出 U 型缩放或 Positive Scaling。这并不意味着 no-CoT 的 prompt 结果是无效的，相反它通过强调任务的缩放曲线如何根据使用的 prompt 类型而不同，提供了额外的细微差别。即同一任务对于一种类型的 prompt 可以具有 Inverse Scaling 曲线，而对于另一种类型的 prompt 就可能具有 U 型缩放或 Positive Scaling。因此「inverse scaling task」这一术语没有明确的定义。

以上是模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7504

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

deepseek怎么评论 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能强大的信息检索工具，其优势在于能够深入挖掘信息，但缺点是速度较慢、结果呈现方式较简单且数据库覆盖范围有限，需要根据具体需求权衡其利弊。

deepseek怎么搜索 Feb 19, 2025 pm 05:39 PM

DeepSeek是一个专有搜索引擎，仅在特定数据库或系统中搜索，速度更快，准确性更高。使用时，建议用户阅读文档、尝试不同的搜索策略、寻求帮助和反馈使用体验，以便充分利用其优势。

芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所（Gate.io）网页版和Gate交易App的注册流程。无论是网页注册还是App注册，都需要访问官方网站或应用商店下载正版App，然后填写用户名、密码、邮箱和手机号等信息，并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装？ Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装？Bybit是一个加密货币交易所，为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载，原因如下：1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求，因为它们涉及金融服务，需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区，与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定，Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App，保障您的账户安全至关重要。

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口，只需遵循这些简单步骤。前往官方网址，点击右上角的“登录”按钮。选择您现有的登录方式，如果是新用户，请“注册”。输入您的注册手机号或邮箱和密码，并完成身份验证（例如手机验证码或谷歌身份验证器）。成功验证后，即可访问币安官方网站的最新版登录入口。

2025年Bitget最新下载地址：获取官方App的步骤 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤，适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息，包括官网、App Store 和 Google Play，并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App，包括应用商店、官网 APK 下载和官网跳转，并完成注册、身份验证和安全设置。此外，指南还涵盖了常见问题和注意事项，例如

See all articles

模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准

U-shaped scaling

CoT prompt 对 Inverse Scaling 的影响

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题