首页 科技周边 人工智能 普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

Feb 19, 2024 am 09:30 AM
数据 模型 排列

今天故事的主角是两位科学家,Sanjeev Arora和Anirudh Goyal。

Arora来自普林斯顿大学,而Goyal则来自谷歌DeepMind。

他们凑到一起,只想探究一个问题。

那就是,LLM,究竟是只会叽叽喳喳学舌的随机鹦鹉,还是真学会了什么,摇身一变成为了具有涌现能力的智能体?

AI先驱Hinton和吴恩达曾经也聊过这个问题,但彼时并没有得出什么明确的结论。

Hinton指出,若无法就此问题达成共识,AI可能带来的潜在危害也难以达成共识。

Arora和Goyal认为,LLM不仅仅是模仿机械地重复学习。他们指出,LLM的输出内容并非只是从大量的训练数据中随机生成的,这一观点值得深入探讨。

两个人为此合写了一篇论文。

普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

论文地址:https://arxiv.org/abs/2307.15936

真相则是,经过大量训练,LLM的规模变得越来越大,它们的相关能力会得到切实的提升,并开发出新的能力。

这可不是一般的排列组合能做到的。

大模型之「大」

众所周知,LLM是一个庞大的人工神经网络,连接着一个个「神经元」。

其实说的就是模型的参数。参数越多,LLM的规模越大。

咱们先了解一下训练LLM的机制和环节。

训练的过程会有这么个环节——给LLM提供一个单句,把最后一个词隐藏掉,然后让LLM根据概率来预测空缺的词汇应该是谁。

假如LLM知道1000个单词,那它就会搞出1000个概率。最后选一个概率最大的填上。

一开始,LLM可能选不准词,算法就会给出一个损失值,即在某个高维的数学空间中,LLM给出的初始答案和原句正确答案之间的「距离」(distance),然后用这个值来对参数进行微调。

之后,还是同一个句子,LLM就能算出一个更正确的概率分布,上述损失值就会稍微降低一点。

如此这般,训练数据中数以十亿计的句子都跑一遍这个流程,等LLM的总体损失值降低到一个还不错的程度为止。

同样,测试LLM也会走这个流程,根据损失值得出测试的结果(当然,测试用的句子肯定不在训练数据里,要不然不是作弊了嘛)。

训完练,测完试,LLM在遇到全新的文本prompt时,就有极大可能生成最正确的那个词了。一个词出来,扔到prompt里,再生成下一个词。

慢慢生成下去,一个看似连贯的回答就跃然纸上了。

然而在这个过程中,并没有迹象表明,规模更大的LLM会在需要推理能力(reasoning)的提问上表现更好。

注意跟上思路,没有迹象表明,意思是说没有实证能指向这个结果,但是从表面上的事实来看,这个结论是对的。

也就是说,规模更大的LLM会在推理能力上表现的比小规模的模型好,虽然二者在训练方式上没有不同,只差在规模上。

Arora大惑不解,那这能力是从哪来的?

这也就是Arora和Goyal研究的起点了——试图构建一个理论框架来分析这些新能力是如何出现的。

于是,他们把目光转向了数学领域,瞄上了一个叫随机图的东西。简单来说,这个名词处于图论和概率论两个领域的交叉地带。

在随机图中,任何两个节点之间是否存在一条把它们连起来的边,是随机的,就好像抛硬币一样。

硬币掷出正面,就有一条边,概率为p。

p的值发生某些变化的时候,整个随机图的属性就可能发生突然的转变。比方说,p值超过某个特定阈值,有些孤立的节点(即和其它节点不存在连接的点),就会突然消失。

两位科学家意识到,随机图的这个特点可能是模拟大语言模型的一种直观方式。

虽说神经网络的复杂程度难以言说,几乎难以分析,但是随机图这个概念已经被数学家研究了相当长的一段时间,还开发出了各种工具来分析。

也许,通过随机图的相关理论,神经网络的研究人员就可以试着理解并分析大语言模型的一些特征。

这里,两位研究人员把目光专注在了二分图上,图里会包含两种类型的节点。

在他们的模型中,一种类型的节点代表着文本片段。注意,这里的片段从篇幅上看最起码得是个段落,甚至长达几页都有可能,而非单个的词汇。

这类节点构成一条直线。

第二类节点,代表着理解上述给定文本所需要的的技能。比方说,对逻辑关系的理解,或是计算的能力,更具体点,还可能有理解讽刺的能力。

举这几个例子是为了讲明白,这第二类节点所代表的能力多种多样,沾的上边的都算。

Arora表示,LLM如果能看出某段文本里含有反讽,可能对整体的理解都会出现较大变化。

不过,我们上面讲到过,第二类节点所代表的能力,不代表LLM在训练的过程中的目的是为了实现这些能力。换句话说,LLM在训练的时候只训练了对下一个可能出现的单词的预测能力。

也就是说,第二类节点所代表的能力,是Arora和Goyal从结果的角度设计的,为的是更好的理解LLM所展现出来的能力。

设定讲完了,两类节点就要开始互相连接了,连接代表的是LLM为了读懂某段文字需要哪些能力。可能一对一,可能一对多,也可能多对一。

还拿读懂反讽举例,这个技能点就会和所有包含反讽元素的文本建立联系。

连接可没那么简单。要知道,OpenAI和DeepMind这种大公司,是不会公开训练数据或者测试数据的。所以两位研究人员不能依赖这些。

此外,他俩想搞明白的还是规模和行为、能力之间的关系。

自从2021年以来,研究LLMs和其他神经网络性能的研究人员已经观察到了一个普遍的特征。

他们注意到,随着模型的增大,无论是在大小还是在训练数据量上,它在测试数据上的损失(在训练后对新文本的预测与正确答案之间的差异)以一种非常特定的方式减少。

这些观察已被编码为一个叫做神经缩放定律的方程。

普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

因此,Arora和Goyal表示,他们的理论不依赖于任何单个LLM的情况、或者特定的一组训练和测试数据,而是某种普适法则:通过缩放定律预测的损失。

而他们进一步研究的关键,就是神经缩放定律和上面介绍的二分图之间的关系。

二分图的借用

首先,研究人员假设存在一个对应LLM在测试数据上行为的二分图。

为了利用好LLM在测试数据上的损失变化,他们设想了一种如下这种方式,来描绘LLM是如何习得技能的。

还是以能理解反讽这种技能为例——

这个概念由一个技能节点表示,因此研究人员查看这个技能节点连接到了哪些文本节点。

如果几乎所有这些连接的文本节点都成功——意味着LLM对这个特定技能所代表的文本的预测非常准确——那么LLM在这个特定技能上是有能力的。

但如果超过一定比例的技能节点连接到失败的文本节点,那么LLM在这个技能上就算失败了。

这些二分图与LLMs之间的连接使Arora和Goyal能够利用随机图理论的工具来分析LLM的行为。

研究这些图揭示了节点之间的某些关系。这些关系进而转化为一种有逻辑,且可测试的方法,得以解释大语言模型究竟怎么获得一些意想不到的能力。

这里,Arora和Goyal首先解释了一个关键行为——为什么较大的LLMs在个别技能上比相对较小的模型更加熟练。

他们从神经缩放定律预测的较低测试损失开始。

如果失败的测试节点较少,那么说明失败的测试节点与技能节点之间的连接也较少。因此,更多的技能节点与成功的测试节点相连接,就表明模型在技能方面的能力增强。

接下来,两位研究人员又找到了一种解释更大模型所获得的能力的方法——随着LLM的大小增加和测试损失减小,技能节点的随机组合开始连接到个别文本节点。

这表明LLM也变得更擅长同时使用多个技能,并开始使用多个技能生成文本,即使这些确切的技能组合在训练数据的任何文本中都没有出现过。

比方说,一个LLM已经可以使用一种技能来生成文本了,那么如果我们把LLM的参数数量或训练数据扩大一个数量级,它将同样擅长生成需要两种技能的文本。

以此类推,再扩大一个数量级,LLM现在就可以执行需要同时具备四种技能的任务了!而且,在各项能力上所具有的熟练程度也是相同的。

因此,更大的LLMs有更多将技能组合在一起的方式,从而导向LLM自身的性能得到大幅提升。

随着LLM的扩大,它在训练数据中遇到所有这些技能组合的可能性变得越来越小,直至0。

根据随机图理论的规则,每种组合都来自对可能技能的随机抽样。因此,如果图中存在大约一千个基本的单个技能节点,并且假设我们想要组合四种技能,那么有大约1000的四次方——也就是足足一万亿种可能的组合方式。

也就是说,如果一个LLM真的能够通过组合这1000种技能中的四种来执行这些任务,那么意味着该模型一定具备了泛化能力,更进一步说,这个模型很可能就不是一个随机鹦鹉了。

但是Arora和Goyal想要超越理论,进一步来测试他们的观点——LLMs在规模和训练数据增加时,会更擅长组合更多的技能,因此在泛化方面表现得更好。

他们与团队其他成员一起设计了一种称为技能混合的方法,用于评估LLM使用多种技能生成文本的能力。

为了对LLM进行测试,研究团队要求它生成关于随机选择的主题的三个句子,这些句子的生成首先展示了LLM随机选择的技能点。

比方说,他们要求GPT-4写一篇有关剑术的文章,然后他们再要求该模型展示来自四个领域的技能:自我偏见、比喻、统计学和物理学尝试的掌握。

GPT-4的输出是这样的:

在这场与钢铁的舞蹈中,我的胜利(用上了比喻)像物体会自由落体一样确定(用上了物理学尝试)。

而作为一名著名的决斗者,我天生灵活,就像大多数人所知晓的我一样(用上了统计)。失败?只可能是由于战场偏向了敌人,不可能是由于我的不足(自我偏见)。

实际上的结果,正如数学所预测的那样,GPT-4的性能远远超过了GPT-3.5。

Arora大胆猜想,会不会一年后,会有远超GPT-4的模型出现呢?

普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据

以上是普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

苹果手机怎么查看流量 苹果手机怎么查看流量 May 09, 2024 pm 06:00 PM

苹果怎么查流量使用情况1、苹果手机查看流量使用情况的具体操作步骤如下:打开手机的设置。点击蜂窝网络按钮。在蜂窝移动网络页面中往下滑,可以看到每个应用的具体流量使用情况。点击应用还可以设置允许使用的网络。2、打开手机,在手机桌面上找到设置选项,点击进入。在设置界面中,找到下方任务栏中的“蜂窝网络”点击进入。在蜂窝网络界面中,找到页面中的“用量”选项,点击进入。3、还有一种办法是通过手机自行查询流量,不过手机只能看到使用总量,并不会显示剩余流量:打开iPhone手机,找到“设置”选项并打开。选择“蜂

Yolov10:详解、部署、应用一站式齐全! Yolov10:详解、部署、应用一站式齐全! Jun 07, 2024 pm 12:05 PM

一、前言在过去的几年里,YOLOs由于其在计算成本和检测性能之间的有效平衡,已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等,取得了显着进展。同时,依赖非极大值抑制(NMS)进行后处理阻碍了YOLO的端到端部署,并对推理延迟产生不利影响。在YOLOs中,各种组件的设计缺乏全面彻底的检查,导致显着的计算冗余,限制了模型的能力。它提供了次优的效率,以及相对大的性能改进潜力。在这项工作中,目标是从后处理和模型架构两个方面进一步提高YOLO的性能效率边界。为此

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型 全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型 Jun 01, 2024 pm 04:41 PM

为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐LLM方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管RLHF方法的结果很出色,但其中涉及到了一些优化难题。其中涉及到训练一个奖励模型,然后优化一个策略模型来最大化该奖励。近段时间已有一些研究者探索了更简单的离线算法,其中之一便是直接偏好优化(DPO)。DPO是通过参数化RLHF中的奖励函数来直接根据偏好数据学习策略模型,这样就无需显示式的奖励模型了。该方法简单稳定

无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct 无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显着突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。 StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜 清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜 Jun 06, 2024 pm 12:20 PM

目标检测系统的标杆YOLO系列,再次获得了重磅升级。自今年2月YOLOv9发布之后,YOLO(YouOnlyLookOnce)系列的接力棒传到了清华大学研究人员的手上。上周末,YOLOv10推出的消息引发了AI界的关注。它被认为是计算机视觉领域的突破性框架,以实时的端到端目标检测能力而闻名,通过提供结合效率和准确性的强大解决方案,延续了YOLO系列的传统。论文地址:https://arxiv.org/pdf/2405.14458项目地址:https://github.com/THU-MIG/yo

李飞飞揭秘创业方向'空间智能”:视觉化为洞察,看见成为理解,理解导致行动 李飞飞揭秘创业方向'空间智能”:视觉化为洞察,看见成为理解,理解导致行动 Jun 01, 2024 pm 02:55 PM

斯坦福李飞飞创业后,首次揭秘新概念“空间智能”。这不仅是她的创业方向,也是指引她的“北极星”,被她认为是“解决人工智能难题的关键拼图”。视觉化为洞察;看见成为理解;理解导致行动。在李飞飞15分钟TED演讲完整公开的基础上,从数亿年前生命进化的起源开始,到人类如何不满足于自然赋予而发展人工智能,直到下一步如何构建空间智能。9年前,李飞飞在同一个舞台上,向世界介绍了刚诞生不久的ImageNet——这一轮深度学习爆发的起点之一。她本人也向网友自我安利:如果把两个视频都看了,你就能对过去10年的计算机视

LLM全搞定!OmniDrive:集3D感知、推理规划于一体(英伟达最新) LLM全搞定!OmniDrive:集3D感知、推理规划于一体(英伟达最新) May 09, 2024 pm 04:55 PM

写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型(MLLMs)在自动驾驶应用中存在的关键挑战,即将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆(AVs)需要针对3D环境做出准确的决策,这一扩展显得尤为重要。3D空间理解对于AV来说至关重要,因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。当前的多模态大语言模型(如LLaVA-1.5)通常仅能处理较低分辨率的图像输入(例如),这是由于视觉编码器的分辨率限制,LLM序列长度的限制。然而,自动驾驶应用需

See all articles