30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了-人工智能-PHP中文网

方法

首页

科技周边

人工智能

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

PHPz

Apr 14, 2023 am 11:49 AM

谷歌模型

人工智能一个重要的目标是开发泛化能力强的模型。在自然语言处理（NLP）领域中，预训练语言模型在这方面取得了重大进展。这类模型往往通过微调来适应新的任务。

近日，来自谷歌的研究者分析了多种指令微调方法，包括扩展对指令微调的影响。实验表明，指令微调确实可以根据任务数量和模型大小实现良好的扩展，最大到 5400 亿参数的模型都能明显受益，未来的研究应该进一步扩大任务的数量和模型的大小。此外，该研究还分析了微调对模型执行推理能力的影响，结果都是很吸引人的。

由此产生的 Flan-T5 对 1800 余种语言任务进行了指令微调，明显提高了提示和多步推理能力，30 亿参数跑基准就能超过 GPT-3 的 1750 亿参数。

看起来谷歌又为大模型找到了一个能力提升的方向。不过这一研究不仅引来了机器学习社区的欢迎，也有 Gary Marcus 的吐槽：

谷歌的模型为什么把谷歌自己的著名科学家 Geoffrey Hinton 的出生日期搞错了？人家明明是 1947 年出生的老前辈。

论文作者之一的谷歌大脑首席科学家 Quoc Le 赶紧出来圆场：是临时工图片做错了，在论文里 Flan-T5 模型其实没有把 Geoff 的出生年月搞错，有图为证。

顺便说一句，出生于 1963 年的著名 AI 学者是 Jürgen Schmidhuber。

既然出错的不是 AI 模型，让我们看看谷歌的新方法究竟能够为预训练模型带来哪些改变吧。

论文：Scaling Instruction-Finetuned Language Models

论文地址：https://arxiv.org/abs/2210.11416
公开模型：https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

该研究使用 540B 参数模型训练 Flan-PaLM，将微调任务的数量增加到 1800 个以上，并包含思维链（CoT；Wei et al., 2022b）数据。经过训练后的 Flan-PaLM 优于 PaLM，在多个基准测试中达到了新的 SOTA。在推理能力方面，Flan-PaLM 能够利用 CoT 和自洽性（self-consistency；Wang et al., 2022c）在大规模多任务语言理解（MMLU; Hendrycks et al., 2020）上实现 75.2% 的准确率。

此外，在一组具有挑战性的开放式生成问题上，Flan-PaLM 的表现明显优于 PaLM，可用性大幅提高。

总体而言，谷歌的这项研究阐明了使用指令微调来提高模型性能的具体方法。

方法

具体来说，该研究主要关注影响指令微调的几个方面，包括：（1）扩展任务数量，（2）扩展模型大小，以及（3）对思维链数据进行微调。

该研究发现具有上述方面的指令微调显著改进了各种模型类（PaLM、T5、U-PaLM）、prompting 设置（零样本、少样本、CoT）和评估基准（MMLU、BBH、 TyDiQA、MGSM、开放式生成）。例如，在 1.8K 任务上进行指令微调的 Flan-PaLM 540B 大大优于 PALM 540B（平均 + 9.4%）。Flan-PaLM 540B 在几个基准测试中实现了最先进的性能，例如在五次 MMLU 上达到 75.2%。

研究者还公开了 Flan-T5 检查点，即使与更大的模型（例如 PaLM 62B）相比，它也能实现强大的少样本性能。总体而言，指令微调是提高预训练语言模型的性能和可用性的通用方法。

图 1. 研究人员在 1800 余个任务中对各种语言模型进行了微调，在有 / 缺乏样本（零样本和少样本）以及有 / 没有思维链的情况下进行微调，从而能够在一系列评估场景中进行泛化。

图 2. 微调数据包括 473 个数据集、146 个任务类别和共计 1836 个任务。

在数据微调和程序微调过程完成后，研究者根据模型大小对任务的性能来对比规模扩展的影响。首先，对于所有三种模型大小，多任务指令微调与没有微调相比性能有很大提高，增益范围从 9.4% 到 15.5%。其次，增加微调任务的数量可以提高性能。

最后，我们可以看到将模型规模增加一个数量级（8B → 62B 或 62B → 540B）可以明显提高微调和未微调模型的性能。

多任务指令微调相对于模型大小（参数量）和微调任务数量及规模扩展对准确率的影响。

增加微调数据中的任务数量可以提高 Flan-PaLM 在大多数评估基准上的性能。

研究人员证明了在微调混合中包含九个带有思维链 (CoT) 注释的数据集可以提高推理能力。下表显示 Flan-PaLM 的 CoT 提示能力在四个保留的评估基准上优于 PaLM。

该研究发现对 CoT 数据进行指令微调的另外一个好处是可以实现零样本（zero-shot）推理，模型在没有针对 CoT 的少量样本的情况下就自行产生了推理能力，这可能需要大量工程调教才能正确实现。

图 6：PaLM 和 Flan-PaLM 在一组 23 个具有挑战性的 BIG-Bench 任务 (BBH) 上的 zero-shot 性能。Flan-PaLM 需要通过「让我们一步一步思考」指令激活的思想链 (CoT) 生成。

为了展示新方法的通用性，谷歌训练了 T5、PaLM 和 U-PaLM，涵盖了从 8000 万到 5400 亿参数的模型体量范围，发现所有模型都能大幅提升性能。

表 5. 指令微调 (Flan) 在其他持续预训练方法之上提高了性能。

经过测试，指令微调大大提高了所有模型类型的归一化平均性能，与非微调模型相比，T5 模型从指令微调中受益最多。这些结果对于某些基准测试来说是相当强的——例如，Flan-T5-XL 只有 30 亿参数，就达到了 47.6% 的 MMLU 分数，超过了 GPT-3 1750 亿参数的 43.9% 分数。

除了 NLP 基准之外，语言模型还能够为开放式问题请求生成长格式答案。在这一方面，标准的 NLP 基准和用于评估它们的自动指标不足以衡量人类的偏好。研究人员对此进行了评估，创建了一个包含 190 个示例的评估集。该评估集包括以零样本方式向模型提出的问题，涉及五个具有挑战性的类别，每个类别 20 个问题：创造力、上下文推理、复杂推理、计划和解释。

对于其中的 60 个示例（来自复杂的推理、计划和解释类别），该研究创建了一个带有思维链触发短语（例如，「让我们一步一步思考」）的变体，作为微调是否进行的另一个评估在 CoT 上启用 zero-shot。除了上述 160 个零样本输入之外，研究中还包括 30 个用于测试少样本能力的输入，这些没有指令微调的强语言模型已被证明在这些方面表现良好。

研究人员认为，指令微调和规模扩展均可以持续提升大语言模型性能，而微调对于推理能力至关重要，其还能泛化模型能力。通过指令微调与其他模型适应技术（例如 UL2R）结合，谷歌在这项工作中提出了最强模型 Flan-U-PaLM。

重要的是，指令微调并不像模型规模扩展一样会大幅增加计算成本，例如对于 PaLM 540B，指令微调只需要 0.2% 的预训练计算，但却可以将跨评估基准的归一化平均值提高 9.4%。使用指令微调的小型模型有时可以胜过没有微调的大模型。

出于这些原因，研究人员建议对几乎所有预训练的语言模型都进行指令微调。

以上是30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7517

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

deepseek怎么评论 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能强大的信息检索工具，其优势在于能够深入挖掘信息，但缺点是速度较慢、结果呈现方式较简单且数据库覆盖范围有限，需要根据具体需求权衡其利弊。

deepseek怎么搜索 Feb 19, 2025 pm 05:39 PM

DeepSeek是一个专有搜索引擎，仅在特定数据库或系统中搜索，速度更快，准确性更高。使用时，建议用户阅读文档、尝试不同的搜索策略、寻求帮助和反馈使用体验，以便充分利用其优势。

芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所（Gate.io）网页版和Gate交易App的注册流程。无论是网页注册还是App注册，都需要访问官方网站或应用商店下载正版App，然后填写用户名、密码、邮箱和手机号等信息，并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装？ Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装？Bybit是一个加密货币交易所，为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载，原因如下：1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求，因为它们涉及金融服务，需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区，与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定，Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App，保障您的账户安全至关重要。

芝麻开门交易所网页版登入口最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作，含登录步骤、找回密码流程，还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法，助你顺利登录平台。

币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口，只需遵循这些简单步骤。前往官方网址，点击右上角的“登录”按钮。选择您现有的登录方式，如果是新用户，请“注册”。输入您的注册手机号或邮箱和密码，并完成身份验证（例如手机验证码或谷歌身份验证器）。成功验证后，即可访问币安官方网站的最新版登录入口。

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

See all articles

30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了

方法

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题