Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了-人工智能-PHP中文网

小样本提示任务

增强提示策略

首页

科技周边

人工智能

Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

王林

Apr 14, 2023 pm 12:52 PM

ai 模型

近年来，语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知，扩展语言模型，例如参数等，可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下，扩展对性能的影响通常可以通过扩展定律进行预测，一直以来，绝大多数研究者都在研究可预测现象。

相反，包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》，他们讨论了大模型不可预测现象，并称之为大型语言模型的突现能力（ emergent abilities）。所谓的突现，即有些现象不存在于较小的模型中但存在于较大的模型中，他们认为模型的这种能力是突现的。

突现作为一种想法已经在物理学、生物学和计算机科学等领域讨论了很长时间，本论文从突现的一般定义开始，该定义改编自 Steinhardt 的研究，并植根于 1972 年诺贝尔奖获得者、物理学家 Philip Anderson 的一篇名为 More Is Different 的文章。

本文探讨了模型规模的突现，通过训练计算和模型参数来衡量。具体而言，本文将大型语言模型的突现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力；因此，大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型突现能力，并将它们进行分类：小样本提示和增强提示等设置。

模型的这种突现能力激发了未来的研究，即为什么会获得这些能力，以及更大的规模是否会获得更多的突现能力，并强调了这项研究的重要性。

论文地址：https://arxiv.org/pdf/2206.07682.pdf

小样本提示任务

本文首先讨论了提示范式中的突现能力。例如在 GPT-3 提示中，给出预训练语言模型任务提示，模型无需进一步训练或对参数进行梯度更新即可完成响应。此外，Brown 等人提出了小样本提示，他们将模型上下文（输入）中的一些输入输出示例作为提示（preamble），然后要求模型执行未见过的推理任务。图 1 为一个提示示例。

Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

当模型具有随机性能且具有一定规模时，通过小样本提示就可以执行任务，这时突现能力就会出现，之后模型性能远远高于随机性能。下图展示了 5 个语言模型系列（LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM ）的 8 种突现能力。

BIG-Bench：图 2A-D 描述了来自 BIG-Bench 的四个突现小样本提示任务，BIG-Bench 是一个由 200 多个语言模型评估基准的套件。图 2A 显示了一个算术基准，它测试了 3 位数字的加减法，以及 2 位数字的乘法。表 1 给出了 BIG-Bench 更多突现能力。

增强提示策略

目前来看，尽管小样本提示是与大型语言模型交互的最常见方式，但最近的工作已经提出了其他几种提示和微调策略，以进一步增强语言模型的能力。如果一项技术在应用到一个足够大的模型之前没有显示出改进或者是有害的，本文也认为该技术也是一种突现能力。

多步推理（Multi-step reasoning）：对于语言模型和 NLP 模型来说，推理任务，尤其是那些涉及多步推理的任务一直是一个很大的挑战。最近有一种名为思维链（chain-of-thought）提示策略，通过引导语言模型在给出最终答案之前生成一系列中间步骤，从而使它们能够解决这类问题。如图 3A 所示，当扩展到 1023 次训练 FLOP(~ 100B 参数)时，思维链提示只超过了没有中间步骤的标准提示。

指令（ Instruction following ）：如图 3B 所示，Wei 等人发现，当训练 FLOP 为 7 · 10^21 （8B 参数）或更小时，指令微调（instruction-finetuning）技术会损害模型性能，在将训练 FLOP 扩展到 10^23 （~100B 参数）时才能提高性能。

程序执行（ Program execution ）：如图 3C 所示，在 8 位加法的域内评估中，使用暂存器仅有助于 ∼9 · 10^19 个训练 FLOP（40M 参数）或更大的模型。图 3D 显示这些模型也可以泛化到域外 9 位加法，它出现在 ∼1.3 · 10^20 个训练 FLOPs（100M 参数）。

本文讨论了语言模型的突现能力，到目前为止，仅在一定的计算规模上才能观察到有意义的性能。模型的这种突现能力可以跨越各种语言模型、任务类型和实验场景。这种突现的存在意味着额外的规模扩展可以进一步扩大语言模型的能力范围。这种能力是最近发现的语言模型扩展的结果，关于它们是如何出现的，以及更多的扩展是否会带来更多的突现能力，可能是NLP领域未来重要的研究方向。

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7478

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

mysql 能返回 json 吗 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 数据。JSON_EXTRACT 函数可提取字段值。对于复杂查询，可考虑使用 WHERE 子句过滤 JSON 数据，但需注意其性能影响。MySQL 对 JSON 的支持在不断增强，建议关注最新版本及功能。

了解 ACID 属性：可靠数据库的支柱 Apr 08, 2025 pm 06:33 PM

数据库ACID属性详解ACID属性是确保数据库事务可靠性和一致性的一组规则。它们规定了数据库系统处理事务的方式，即使在系统崩溃、电源中断或多用户并发访问的情况下，也能保证数据的完整性和准确性。ACID属性概述原子性(Atomicity):事务被视为一个不可分割的单元。任何部分失败，整个事务回滚，数据库不保留任何更改。例如，银行转账，如果从一个账户扣款但未向另一个账户加款，则整个操作撤销。begintransaction;updateaccountssetbalance=balance-100wh

掌握SQL LIMIT子句：控制查询中的行数 Apr 08, 2025 pm 07:00 PM

SQLLIMIT子句：控制查询结果行数SQL中的LIMIT子句用于限制查询返回的行数，这在处理大型数据集、分页显示和测试数据时非常有用，能有效提升查询效率。语法基本语法：SELECTcolumn1,column2,...FROMtable_nameLIMITnumber_of_rows;number_of_rows：指定返回的行数。带偏移量的语法：SELECTcolumn1,column2,...FROMtable_nameLIMIToffset,number_of_rows;offset：跳过

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度