谷歌、斯坦福联合发文：我们为什么一定要用大模型？-人工智能-PHP中文网

大模型的突现能力

是平滑还是突现？

大模型对如何形式化任务很敏感

模型越大一定越强吗？

总结与思考

首页

科技周边

人工智能

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

PHPz

Apr 08, 2023 pm 05:51 PM

ai 模型

语言模型已经深刻变革了自然语言处理领域的研究和实践。近年来，大模型在多个领域都取得了重要的突破。它们无需在下游任务上微调，通过合适的指令或者提示就可以取得优异的性能，甚至有时让人为之惊叹。

例如，GPT-3 [1] 可以写情书、写剧本和解决复杂的数据数学推理问题，PaLM [2] 可以解释笑话。上面的例子只是大模型能力的冰山一角，现在利用大模型能力已经开发了许多应用，在OpenAI的网站 [3] 可以看到许多相关的demo，而这些能力在小模型上却很少体现。

今天介绍的这篇论文中，将那些小模型不具备而大模型具备的能力称为突现能力（Emergent Abilities），意指模型的规模大到一定程度后所突然获得的能力。这是一个量变产生质变的过程。

突现能力的出现难以预测。为什么随着规模的增大，模型会忽然获得某些能力仍旧是一个开放问题，还需要进一步的研究来解答。在本文中，笔者梳理了最近关于理解大模型的一些进展，并给出了一些相关的思考，期待与大家共同探讨。

大模型的突现能力

何谓大模型？到什么尺寸才算“大”？这并没有一个明确的定义。

一般来说，模型参数可能要达到十亿级别才会显示出明显不同于小模型的zero-shot和few-shot的能力。近年来已有多个千亿和万亿级别参数的模型，在一系列的任务上都取得了SOTA的表现。在一些任务中，模型的性能随着规模的增加而可靠地提高，而在另一些任务中，模型在某个规模上表现出性能的突然提升。可以用两个指标去对不同的任务进行分类 [4]：

Linearity: 旨在衡量模型随着规模的增加在任务上的表现在多大程度上得到可靠的提高。

Breakthroughness: 旨在衡量当模型规模超过临界值时可以在多大程度上学习任务。

这两个指标是模型规模和模型性能的函数，具体计算细节可以参考 [4]。下图展示了一些高Linearity和高Breakthroughness任务的例子。

高Linearity的任务大多是基于知识的，也就是说他们主要依赖于记忆训练数据中存在的信息，比如回答一些事实性的问题。更大的模型通常用更多的数据进行训练，也能记住更多的知识，所以模型随着规模的增大在这类任务上显式出了稳定的提升。高Breakthroughness的任务包括较复杂的任务，它们需要用几种不同的能力或执行多个步骤以得出正确的答案，例如数学推理。较小的模型难以获得执行这类任务所需要的所有能力。

下图进一步展示了不同的模型在一些高Breakthroughness任务上的表现

在未达到一定的模型规模时，模型在这些任务上的表现是随机的，达到某个特定的规模之后，就有了显著的提升。

是平滑还是突现？

前面我们看到的是模型规模增加到一定程度后突然获得了某些能力，从任务特定的指标来看，这些能力是突现的，但是从另外的角度来看，模型能力的潜在变化更为平滑。本文讨论如下两个角度：（1）使用更为平滑的指标；（2）将复杂的任务分解为多个子任务。

下图（a）展示了一些高Breakthroughness任务的真实目标对数概率的变化曲线，真实目标的对数概率是随着模型规模增大逐渐提高的。

图（b）显式了对于某个多项选择任务，随着模型规模的增大，正确答案的对数概率逐步提升，而错误答案的对数概率在某个特定的规模之前逐步提升，而在此之后趋于平坦。在这个规模之后，正确答案概率和错误答案概率的差距拉大，从而模型得到了显著的性能提升。

此外，对于某个特定任务，假设我们可以用Exact Match和BLEU去评价模型的表现，BLEU相比于Exact Match是更为平滑的指标，使用不同指标所看到的趋势可能有显著的差距。

对于一些任务，模型可能在不同的规模上获得了做这个任务的部分能力。下图是通过一串emoji去猜测电影名字的任务

我们可以看到模型在一些规模开始猜测电影名称，在更大的规模上识别表情符号的语义，在最大的规模上产生正确的答案。

大模型对如何形式化任务很敏感

模型在什么规模上体现出突然的能力提升也取决于如何去形式化任务。例如，在复杂的数学推理任务上，使用标准的prompting将其视为问答任务，模型规模增大性能提升十分有限，而若使用如下图所示的chain-of-thought prompting [5]，将其视为多步推理任务，则会在某个特定的规模看到显著的性能提升。

更有甚者，研究人员发现通过添加一个简单的提示“Let’s think step by step”，就可以大幅提升GPT-3的zero-shot推理能力 [6]，如下图所示

这对于我们的启发是，大模型有时做不好某个任务，可能并不是真的做不好，而是需要合适的方式去激发它的能力。

模型越大一定越强吗？

前面的讨论给我们的直观感觉是模型规模变大性能一定是有所提升的，但是真的是这样吗？实际上，对于有些任务，模型变大之后性能可能反而会有所下降，如下图所示

纽约大学的几位研究人员还组织了一项竞赛，旨在找到那些模型变大后反而表现变差的任务。

比如在问答任务中，如果在提问的同时加上你的信仰，大模型会更容易受到影响。感兴趣的同学可以关注。

总结与思考

在大多数任务上，随着模型规模的增大，模型的表现也越好，但是也会有一些反例。更好地去理解模型此类行为还需要更多的研究。

大模型的能力需要合适的方式去激发。

大模型真的是在做推理吗？如我们之前看到的，通过添加提示“Let’s think step by step”，大模型在数学推理任务上就可以进行多步推理并取得令人满意的效果，似乎模型已经具备了人类的推理能力。但是，如下如所示，如果给GPT-3一个没有意义的问题，让它去做多步推理，GPT-3看似在做推理，实则是一些无意义的输出。正所谓“garbage in, garbage out”。相比较而言，人类就可以判断问题是否是合理的，也就是说在给定条件下，当前问题是不是可回答的。“Let’s think step by step”能够发挥作用，笔者觉得根本原因还是GPT-3在训练过程中看过很多类似的数据，它做的只不过是根据前面的token去预测接下来的token罢了，跟人类的思考方式仍旧有本质的区别。当然，如果给合适的提示让GPT-3去判断问题是不是合理的或许它也能在某种程度上做到，但是距离“思考”和“推理”恐怕仍有相当大的距离，这不是单纯增大模型的规模能够解决的。模型或许不需要像人类那样思考，但是亟需更多的研究去探索除增大模型规模之外的路径。

系统1还是系统2？人类大脑有两个系统相互配合，系统1（直觉）是快速的、自动化的，而系统2（理性）是缓慢的、可控的。大量实验已证明，人更喜欢使用直觉进行判断和决策，而理性可以对其导致的偏误进行纠正。现在的模型大多基于系统1或系统2进行设计，能否基于双系统去设计未来的模型呢？

大模型时代的查询语言。之前我们把知识和数据存储在数据库和知识图谱中，我们可以用SQL查询关系型数据库，可用SPARQL去查询知识图谱，那我们用什么查询语言去调用大模型的知识和能力呢？

梅贻琦先生曾说“所谓大学者，非谓有大楼之谓也，有大师之谓也”，笔者在此用个不太恰当的类比结束本篇：所谓大模型者，非谓有参数之谓也，有能之谓也。

以上是谷歌、斯坦福联合发文：我们为什么一定要用大模型？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7488

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

phpmyadmin建立数据表 Apr 10, 2025 pm 11:00 PM

要使用 phpMyAdmin 创建数据表，以下步骤必不可少：连接到数据库并单击“新建”标签。为表命名并选择存储引擎（推荐 InnoDB）。通过单击“添加列”按钮添加列详细信息，包括列名、数据类型、是否允许空值以及其他属性。选择一个或多个列作为主键。单击“保存”按钮创建表和列。

Redis内存碎片如何处理？ Apr 10, 2025 pm 02:24 PM

Redis内存碎片是指分配的内存中存在无法再分配的小块空闲区域。应对策略包括：重启Redis：彻底清空内存，但会中断服务。优化数据结构：使用更适合Redis的结构，减少内存分配和释放次数。调整配置参数：使用策略淘汰最近最少使用的键值对。使用持久化机制：定期备份数据，重启Redis清理碎片。监控内存使用情况：及时发现问题并采取措施。

怎么创建oracle数据库 oracle怎么创建数据库 Apr 11, 2025 pm 02:33 PM

创建Oracle数据库并非易事，需理解底层机制。1. 需了解数据库和Oracle DBMS的概念；2. 掌握SID、CDB（容器数据库）、PDB（可插拔数据库）等核心概念；3. 使用SQL*Plus创建CDB，再创建PDB，需指定大小、数据文件数、路径等参数；4. 高级应用需调整字符集、内存等参数，并进行性能调优；5. 需注意磁盘空间、权限和参数设置，并持续监控和优化数据库性能。熟练掌握需不断实践，才能真正理解Oracle数据库的创建和管理。

oracle数据库怎么创建 oracle数据库怎么建库 Apr 11, 2025 pm 02:36 PM

创建Oracle数据库，常用方法是使用dbca图形化工具，步骤如下：1. 使用dbca工具，设置dbName指定数据库名；2. 设置sysPassword和systemPassword为强密码；3. 设置characterSet和nationalCharacterSet为AL32UTF8；4. 设置memorySize和tablespaceSize根据实际需求调整；5. 指定logFile路径。高级方法为使用SQL命令手动创建，但更复杂易错。需要注意密码强度、字符集选择、表空间大小及内存

使用 Redis Exporter 服务监控 Redis Droplet Apr 10, 2025 pm 01:36 PM

有效监控 Redis 数据库对于保持最佳性能、识别潜在瓶颈和确保整体系统可靠性至关重要。 Redis Exporter Service 是一个强大的实用程序，旨在使用 Prometheus 监控 Redis 数据库。本教程将指导您完成 Redis Exporter Service 的完整设置和配置，确保您无缝建立监控解决方案。通过学习本教程，您将实现完全可操作的监控设置

Redis内存配置参数有哪些？ Apr 10, 2025 pm 02:03 PM

**Redis内存配置的核心参数是 maxmemory，它限制 Redis 可使用内存量。当超过此限制时，Redis 根据 maxmemory-policy 执行淘汰策略，有：noeviction（直接拒绝写入）、allkeys-lru/volatile-lru（按LRU淘汰）、allkeys-random/volatile-random（随机淘汰）、volatile-ttl（按过期时间淘汰）。其他相关参数包括 maxmemory-samples（LRU采样数量）、rdb-compression

oracle数据库的语句怎么写 Apr 11, 2025 pm 02:42 PM

Oracle SQL语句的核心是SELECT、INSERT、UPDATE和DELETE，以及各种子句的灵活运用。理解语句背后的执行机制至关重要，如索引优化。高级用法包括子查询、连接查询、分析函数和PL/SQL。常见错误包括语法错误、性能问题和数据一致性问题。性能优化最佳实践涉及使用适当的索引、避免使用SELECT *、优化WHERE子句和使用绑定变量。掌握Oracle SQL需要实践，包括代码编写、调试、思考和理解底层机制。

Redis内存管理机制是什么？ Apr 10, 2025 pm 01:39 PM

Redis 采用精细的内存管理机制，包括：精心设计的内存友好数据结构、针对不同大小内存块优化分配策略的多内存分配器、根据特定需求选择淘汰策略的内存淘汰机制，以及用于监控内存使用情况的工具。这种机制的目标是极致性能，通过精细控制和高效利用内存，尽量减少内存碎片和提高访问效率，确保 Redis 在各种场景中稳定高效运行。

See all articles

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

​大模型的突现能力

是平滑还是突现？

大模型对如何形式化任务很敏感

模型越大一定越强吗？

总结与思考

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题

大模型的突现能力