Richard Sutton 直言卷积反向传播已经落后,AI 突破要有新思路:持续反向传播
“可塑性损失”(Loss of Plasticity)是深度神经网络最常被诟病的一个缺点,这也是基于深度学习的 AI 系统被认为无法持续学习的原因之一。
对于人脑而言,“可塑性”是指产生新神经元和神经元之间新连接的能力,是人进行持续学习的重要基础。随着年龄的增长,作为巩固已学到知识的代价,大脑的可塑性会逐渐下降。神经网络也是类似。
一个形象的例子是,2020 年热启动式(warm-starting)训练被证明:只有抛除最初学到的内容,以一次性学习的方式在整个数据集上训练,才会取得比较好的学习效果。
在深度强化学习(DRL)中,AI 系统往往也要“遗忘”神经网络之前所学习的所有内容,只将部分内容保存到回放缓冲区,再从零开始实现不断学习。这种重置网络的方式也被认为证明了深度学习无法持续学习。
那么,如何才能使学习系统保持可塑性?
近日,强化学习之父 Richard Sutton 在 CoLLAs 2022 会议中作了一个题为“Maintaining Plasticity in Deep Continual Learning” 的演讲,提出了他认为能够解决这个问题的答案:持续反向传播算法(Continual Backprop)。
Richard Sutton 首先从数据集的角度证明了可塑性损失的存在,然后从神经网络内部分析了可塑性损失的原因,最后提出持续反向传播算法作为解决可塑性损失的途径:重新初始化一小部分效用度较低的神经元,这种多样性的持续注入可以无限期地保持深度网络的可塑性。
以下是演讲全文,AI 科技评论做了不改原意的整理。
1 可塑性损失的真实存在
深度学习是否能真正解决持续学习的问题?
答案是否定的,主要原因有以下三点:
- “无法解决”是指如同非深度的线性网络,学习速度最终会非常缓慢;
- 深度学习中采用的专业标准化方法只在一次性学习中有效,与持续学习相违背;
- 回放缓存本身就是承认深度学习不可行的极端方法。
因此,我们必须寻找适用于这种新型学习模式的更优算法,摆脱一次性学习的局限性。
首先,我们利用 ImageNet 和 MNIST 数据集做分类任务,实现回归预测,对持续学习效果进行直接测试,证明了监督学习中可塑性损失的存在。
ImageNet 数据集测试
ImageNet 是一个包含数百万张用名词标记的图像的数据集。它有 1000 个类别,每个类别有700张或更多图像,被广泛用于类别学习和类别预测。
下面是一张鲨鱼照片,通过下采样降到 32*32 大小。这个实验的目的是从深度学习实践中寻找最小的变化。我们将每个类别的 700 张图像划分成 600 个训练样例和 100 个测试样例,然后将 1000 个类别分成两组,生成长度为 500 的二元分类任务序列,所有的数据集会被随机地打乱顺序。每个任务训练结束后,我们在测试样例上评估模型的准确率,独立运行 30 次后取平均,再进入下一个二元分类任务。
500 个分类任务会共享相同的网络,为了消除复杂性影响,任务切换后会重置头网络。我们采用标准网络,即 3 层卷积 3 层全连接,不过对于 ImageNet 数据集来说输出层可能相对小一些,这是由于一个任务只用了两种类别。对于每个任务,每 100 个示例作为一个 batch,共有 12 个 batch,训练 250 个 epoch。在开始第一个任务前只进行一次初始化,利用 Kaiming 分布初始化权重。针对交叉熵损失采用基于动量的随机梯度下降法,同时采用 ReLU 激活函数。
这里引出两个问题:
1、在任务序列中,性能会如何演化?
2、在哪一个任务上的性能会更好?是初始的第一个任务会更好?还是后续任务会从前面任务的经验中获益?
下图给出了答案,持续学习的性能是由训练步长和反向传播综合决定的。
由于是二分类问题,偶然性概率是 50%,阴影区域表示标准差,这种差异并不显著。线性基准采用线性层直接处理像素值,没有深度学习方法效果好,这种差异很显著。
图注:使用更小的学习率(α=0.001)准确率会更高,在前 5 个任务中性能逐步提升,但从长远来看却呈下降趋势。
我们接着将任务数目增加到了 2000,进一步分析了学习率对于持续学习效果的影响,平均每 50 个任务计算一次准确率。结果如下图。
图注:α=0.01 的红色曲线在第一个任务上的准确率大约是 89%,一旦任务数超过 50,准确率便下降,随着任务数进一步增加,可塑性逐渐缺失,最终准确率低于线性基准。α=0.001 时,学习速度减慢,可塑性也会急剧降低,准确率只是比线性网络高一点点。
因此,对于良好的超参数,任务间的可塑性会衰减,准确率会比只使用一层神经网络还要低,红色曲线所显示的几乎就是“灾难性的可塑性缺失”。
训练结果同样取决于迭代次数、步长数和网络尺寸等参数,图中每条曲线在多个处理器上的训练时间是 24 小时,在做系统性实验时可能并不实用,我们接下来选择 MNIST 数据集进行测试。
MNIST 数据集测试
MNIST 数据集共包含 60000 张手写数字图像,有 0-9 这 10 个类别,为 28*28 的灰度图像。
Goodfellow 等人曾通过打乱顺序或者随机排列像素创建一种新的测试任务,如右下角的图像就是生成的排列图像的示例,我们采用这种方法来生成整个任务序列,在每个任务中 6000 张图像以随机的形式呈现。这里没有增加任务内容,网络权重只在进行第一个任务之前初始化一次。我们可以用在线的交叉熵损失进行训练,同样继续使用准确率指标衡量持续学习的效果。
神经网络结构为 4 层全连接层,前 3 层神经元数为 2000,最后一层神经元数为 10。由于 MNIST 数据集的图像居中并进行过缩放,所以可以不执行卷积操作。所有的分类任务共享相同的网络,采用了不含动量的随机梯度下降法,其他的设置与 ImageNet 数据集测试的设置相同。
图注:中间的图是在任务序列上独立运行 30 次取平均值后的结果,每个任务有 6000 个样本,由于是分类任务,开始时随机猜的准确率是 10%,模型学习到排列图像的规律后,预测准确率会逐渐提升,但切换任务后,准确率又降到 10%,所以总体呈现不断波动趋势。右边的图是模型在每个任务上的学习效果,初始准确率为 0,随着时间推移,效果逐渐变好。在第 10 个任务上的准确率比第 1 个任务好,但在进行第 100 个任务时准确率有所下降,在第 800 个任务上的准确率比第一个还要低。
为了弄清楚整个过程,后续还需要重点分析凸起部分的准确率,对其取均值后得到中间图像的蓝色曲线。可以清晰地看到,准确率刚开始会逐步提升,后面直到第 100 个任务时趋于平稳。那在第 800 个任务时准确率为什么会急剧下降呢?
接下来,我们在更多的任务序列上尝试了不同的步长值,进一步观察它们的学习效果。结果如下图:
图注:红色曲线采用和前面实验相同的步长值,准确率的确在稳步下降,可塑性损失相对较大。
同时,学习率越大,可塑性减小的速度就越快。所有的步长值都会存在巨大的可塑性损失。此外,隐藏层神经元数目也会影响准确率,棕色曲线的神经元数目为 10000,由于神经网络的拟合能力增强,此时准确率会下降得非常缓慢,仍有可塑性损失,但网络尺寸越小,可塑性减小的速度也越快。
那么从神经网络内部来看,为什么会产生可塑性损失?
下图解释了其中的原因。可以发现,“死亡”神经元数目占比过高、神经元的权重过大以及神经元多样性丧失,都是产生可塑性损失的原因。
图注:横轴仍然都表示任务编号,第一张图的纵轴表示“死亡”神经元的百分比,“死亡”神经元是指输出和梯度总为 0 的神经元,不再预测网络的可塑性。第二张图的纵轴表示权重大小。第三张图的纵轴表示剩余隐藏神经元数目的有效等级。
2 现有方法的局限性
我们分析了现有的、反向传播以外的深度学习方法是否会有助于保持可塑性。
结果表明,L2 正则化方法会使可塑性损失减小,在此过程中令权重缩小到 0,从而可以动态调整并保持可塑性。
收缩和扰动方法与 L2 正则化类似,同时还会向所有权重中加入随机噪声增加多样性,基本不会有可塑性损失。
我们还尝试了其他在线标准化方法,开始时效果还比较好,但随着持续学习可塑性损失严重。Dropout 方法的表现更糟糕,我们随机将一部分神经元设置为0再训练,发现可塑性损失急剧加大。
各种方法对神经网络内部结构也会产生影响。使用正则化方法会使“死亡”神经元数量百分比上升,因为在将权重缩小到 0 的过程中,如果其一直为 0 ,就会导致输出为 0,神经元就会“死亡”。而收缩和扰动向权重中添加了随机噪声,所以不会有太多的“死亡”神经元。标准化方法也有很多的“死亡”神经元,它似乎在朝着错误的方向走,Dropout 也类似。
权值随任务数量变化的结果更为合理,使用正则化会获得很小的权值,收缩和扰动在正则化的基础上添加了噪声,权值下降幅度相对减弱,而标准化则会使权重变大。但是对于 L2 正则化以及收缩和扰动方,其隐藏神经元数有效等级相对较低,说明其在保持多样性方面表现较差,这也是一个问题。
缓慢变化的回归问题(SCR)
我们所有的 idea 和算法都源自缓慢变化的回归问题实验,这是一个聚焦于持续学习的新的理想化问题。
在这个实验中,我们的目的是要实现一个具有随机权重的单层神经网络形成的目标函数,隐藏层神经元为 100 个线性阈值神经元。
我们没有做分类,只是生成了一个数字,因此这是一个回归问题。每训练 10000 步,我们才会从输入的后 15 位中选择 1 位进行翻转,因此这是一个缓慢变化的目标函数。
我们的解决方案是用相同的网络结构,只包含一个神经元的隐藏层,同时保证激活函数可微,但是我们将会有 5 个隐藏神经元。这就类似于在 RL 中,智能体探索的范围比交互的环境小很多,所以只能做近似处理,随着目标函数的变化尝试改变近似值,这样就会容易做一些系统性实验。
图注:输入为 21 位随机的二进制数,第 1 位是值为 1 的输入常数偏差,中间 5 位是独立同分布的随机数,其他 15 位是缓慢变化的常数,输出为实数。权值随机化为 0,可以随机地选择 1 或者 -1。
我们进一步研究了变化的步长值和激活函数对学习效果的影响,比如这里用了 tanh、sigmoid 和 relu 激活函数等:
以及激活函数形式对所有算法学习效果的影响:
在步长和激活函数同时变化的情况下,我们也对 Adam 反向传播的影响做了系统性分析:
最后是使用不同激活函数后,基于 Adam 机制的不同算法之间的误差变化情况:
以上实验结果都表明深度学习方法已经不再适用于持续学习,遇到新的问题时,学习过程会变得非常缓慢,没有体现出深度的优势。深度学习中的标准化方法也只适合一次性学习,我们需要改进深度学习方法才有可能将其用于持续学习中。
3 持续反向传播
卷积反向传播算法本身会是一个好的持续学习算法吗?
我们认为不是。
卷积反向传播算法主要包含两个方面:用小的随机权重进行初始化和在每个时间步进行梯度下降。尽管它在开始生成小的随机数来初始化权重,但并不会再次重复。理想情况下,我们可能需要一些在任何时候都可以进行类似计算的学习算法。
那我们如何使卷积反向传播算法持续地学习?
最简单的方法就是选择性地进行重新初始化,比如在执行几项任务后进行初始化。但同时,重新初始化整个网络在持续学习中可能并不合理,因为这意味着神经网络正在忘记全部所学内容。所以我们最好选择性地初始化神经网络的一部分,比如重新初始化一些“死亡”神经元,或者根据效用度对神经网络进行排序,重新初始化效用度较低的神经元。
随机选择初始化的思想与 2012 年 Mahmood 和 Sutton 提出的生成和测试方法有关,只需要生成一些神经元并测试它们的实用性,持续反向传播算法搭建了这两个概念之间的桥梁。生成和测试方法存在一些局限性,只用一个隐藏层并只有一个输出神经元,我们将其扩展到多层网络,可以用一些深度学习方法进行优化。
我们首先考虑将网络设置成多层,不再是单个输出。之前的工作提到过效用度的概念,由于只有一个权重,这个效用度只是权重层面的概念,但是我们有多个权重,最简单的泛化是考虑权重求和层面的效用度。
另一个想法是考虑特征的活动,而不仅仅是考虑输出权重,因此我们可以将权重的总和乘以平均特征激活函数,从而分配不同的比例。我们希望设计能够持续学习并保持快速运行的算法,我们在计算效用度的时候还考虑了特征的可塑性。最后,将特征的平均贡献转移到输出的偏置中,降低特征删除的影响。
未来的改进方向主要有两点:(1)我们需要对效用度进行全局度量,衡量神经元对所表征的整个函数的影响,而不仅仅局限于输入权重、输出权重和激活函数这样的局部度量;(2)我们需要进一步改进生成器,目前只是从初始分布中采样进行进行初始化,还要探索可以改善性能的初始化方法。
那么,持续反向传播在保持可塑性方面表现如何呢?
实验结果表明,持续反向传播利用在线排列的 MNIST 数据集训练,完全保持了可塑性。下图中的蓝色曲线显示了这一结果。
图注:右图显示了不同替换率对于持续学习的影响,例如替换率为 1e-6 表示在每个时间步长替换 1/1000000 个表征。即假设有 2000 个特征,每走 500 步,就会在每一层更换一个神经元。这个更新速度非常缓慢,所以替换率对超参数不是很敏感,不会显著影响学习效果。
接下来,我们需要研究持续反向传播对于神经网络内部结构的影响。持续反向传播几乎没有“死亡”神经元,因为效用度考虑了平均特征激活,如果某个神经元“死亡”,会立即被更换。而且由于我们不断更换神经元,我们得到了权重幅度较小的新神经元。因为随机初始化了神经元,它们也相应地保留了更丰富的表征和多样性。
因此,持续反向传播解决了 MNIST 数据集上可塑性缺失引发的全部问题。
那么,持续反向传播是否可以扩展到更深的卷积神经网络中?
答案是肯定的!在 ImageNet 数据集上,持续反向传播完全保持了可塑性,模型最终的准确率在 89% 左右。其实在初始的训练阶段,这几种算法的表现相当,前面提到过替换率的变化非常缓慢,任务数目足够大的时候才近似的比较好。
这里以“Slippery Ant”问题为例展示一个强化学习的实验结果。
“Slippery Ant”问题是非平稳强化问题的一个扩展,与 PyBullet 环境基本类似,唯一不同的是地面和智能体之间的摩擦力每 1000 万步后会发生变化。我们基于持续反向传播实现了持续学习版本的 PPO 算法,可以选择性初始化。PPO 算法和持续 PPO 算法的对比结果如下图。
图注:PPO 算法在刚开始表现还不错,但随着训练进行性能不断下降,引入 L2 算法以及收缩和扰动算法后会有所缓解。而持续 PPO 算法的表现相对较好,保留了大部分可塑性。
有趣的是,PPO 算法训练的智能体只能挣扎着走路,但是持续 PPO 算法训练的智能体可以跑到很远的地方。
4 结论
深度学习网络主要为一次性学习进行优化,从某种意义上说用于持续学习可能会完全失败。像标准化和 DropOut 等深度学习方法对于持续学习可能没有帮助,但是在此基础上做一些小的改进可能会非常有效,比如持续反向传播。
持续反向传播根据神经元的效用对网络特征进行排序,特别是对于递归神经网络,排序方式可能有更多改进方法。
强化学习算法利用了策略迭代思想,持续学习问题固然存在,保持深度学习网络的可塑性为 RL 和基于模型的 RL 开辟了巨大的新可能性。
以上是Richard Sutton 直言卷积反向传播已经落后,AI 突破要有新思路:持续反向传播的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

写在前面&笔者的个人理解目前,在整个自动驾驶系统当中,感知模块扮演了其中至关重要的角色,行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后,才能让自动驾驶系统中的下游规控模块做出及时、正确的判断和行为决策。目前,具备自动驾驶功能的汽车中通常会配备包括环视相机传感器、激光雷达传感器以及毫米波雷达传感器在内的多种数据信息传感器来收集不同模态的信息,用于实现准确的感知任务。基于纯视觉的BEV感知算法因其较低的硬件成本和易于部署的特点,以及其输出结果能便捷地应用于各种下游任务,因此受到工业

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。

C++sort函数底层采用归并排序,其复杂度为O(nlogn),并提供不同的排序算法选择,包括快速排序、堆排序和稳定排序。

自2006年深度学习概念被提出以来,20年快过去了,深度学习作为人工智能领域的一场革命,已经催生了许多具有影响力的算法。那么,你所认为深度学习的top10算法有哪些呢?以下是我心目中深度学习的顶尖算法,它们在创新性、应用价值和影响力方面都占据重要地位。1、深度神经网络(DNN)背景:深度神经网络(DNN)也叫多层感知机,是最普遍的深度学习算法,发明之初由于算力瓶颈而饱受质疑,直到近些年算力、数据的爆发才迎来突破。DNN是一种神经网络模型,它包含多个隐藏层。在该模型中,每一层将输入传递给下一层,并

在当今科技日新月异的浪潮中,人工智能(ArtificialIntelligence,AI)、机器学习(MachineLearning,ML)与深度学习(DeepLearning,DL)如同璀璨星辰,引领着信息技术的新浪潮。这三个词汇频繁出现在各种前沿讨论和实际应用中,但对于许多初涉此领域的探索者来说,它们的具体含义及相互之间的内在联系可能仍笼罩着一层神秘面纱。那让我们先来看看这张图。可以看出,深度学习、机器学习和人工智能之间存在着紧密的关联和递进关系。深度学习是机器学习的一个特定领域,而机器学习

人工智能(AI)与执法领域的融合为犯罪预防和侦查开辟了新的可能性。人工智能的预测能力被广泛应用于CrimeGPT(犯罪预测技术)等系统,用于预测犯罪活动。本文探讨了人工智能在犯罪预测领域的潜力、目前的应用情况、所面临的挑战以及相关技术可能带来的道德影响。人工智能和犯罪预测:基础知识CrimeGPT利用机器学习算法来分析大量数据集,识别可以预测犯罪可能发生的地点和时间的模式。这些数据集包括历史犯罪统计数据、人口统计信息、经济指标、天气模式等。通过识别人类分析师可能忽视的趋势,人工智能可以为执法机构

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」 。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。 AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显着提高。这表明,在单个统一的深度学习框架内,可以实现
