目录
研究动机
方法叙述
实验结果
首页 科技周边 人工智能 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

Oct 13, 2023 pm 04:21 PM
ai 训练

持续学习的目的是模仿人类在连续任务中持续积累知识的能力,其主要挑战是在持续学习新任务后如何保持对以前所学任务的表现,即避免灾难性遗忘(catastrophic forgetting)。持续学习和多任务学习(multi-task learning)的区别在于:后者在同一时间可以得到所有任务,模型可以同时学习所有任务;而在持续学习中任务 一个一个出现,模型在某一时刻只能学习一个任务的知识,并且在学习新知识的过程中避免遗忘旧知识。

南加州大学联合 Google Research 提出了一种解决持续学习(continual learning)的新方法通道式轻量级重编码(Channel-wise Lightweight Reprogramming [CLR]):通过在固定任务不变的 backbone 中添加可训练的轻量级模块,对每层通道的特征图进行重编程,使得重编程过的特征图适用于新任务。这个可训练的轻量级模块仅仅占整个backbone的0.6%,每个新任务都可以有自己的轻量级模块,理论上可以持续学习无穷多新任务而不会出现灾难性遗忘。文已发表在 ICCV 2023。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

  • 论文地址: https://arxiv.org/pdf/2307.11386.pdf
  • 项目地址: https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming
  • 数据集地址: http://ilab.usc.edu/andy/skill102

通常解决持续学习的方法主要分为三大类:基于正则化的方法、动态网络方法和重放方法。

  • 基于正则化的方法是模型在学习新任务的过程中对参数更新添加限制,在学习新知识的同时巩固旧知识。
  • 动态网络方法是在学习新任务的时候添加特定任务参数并对旧任务的权重进行限制。
  • 重放方法假设在学习新任务的时候可以获取旧任务的部分数据,并与新任务一起训练。

本文提出的CLR方法是一种动态网络方法。下图表示了整个过程的流程:研究者使用与任务无关的不可变部分作为共享的特定任务参数,并添加特定任务参数对通道特征进行重编码。与此同时,为了尽可能减少每个任务的重编码参数的训练量,研究者只需调整模型中内核的大小,并学习从backbone到特定任务知识的通道线性映射来实现重编码。在持续学习中,每个新任务都可以训练得到一个轻量级模型;这种轻量级模型所需训练的参数很少,即使任务很多,总共需要训练的参数相对于大模型来说也很小,并且每个轻量级模型都能达到很好的效果

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

研究动机

持续学习关注于从数据流中学习的问题,即通过特定的顺序学习新任务,不断扩展其已获得的知识,同时避免遗忘以前的任务,因此如何避免灾难性遗忘是持续学习研究的主要问题。研究者从以下三个方面考虑:

  • 重用而不是重学:对抗重编码(Adversarial Reprogramming [1])是一种通过扰动输入空间,在不重新学习网络参数的情况下,"重编码" 一个已经训练并冻结的网络来解决新任务的方法。研究者借用了 “重编码” 的思想,在原始模型的参数空间而不是输入空间进行了更轻量级但也更强大的重编程。
  • 通道式转换可以连接两个不同的核:GhostNet [2] 的作者发现传统网络在训练后会得到一些相似的特征图,因此他们提出了一种新型网络架构 GhostNet:通过对现有特征图使用相对廉价的操作(比如线性变化)生成更多的特征图,以此来减小内存。受此启发,本文方法同样使用线性变换生成特征图来增强网络,这样就能以相对低廉的成本为各个新任务量身定制。
  • 轻量级参数可以改变模型分布:BPN [3] 通过在全连接层中增加了有益的扰动偏差,使网络参数分布从一个任务转移到另一个任务。然而 BPN 只能处理全连接层,每个神经元只有一个标量偏置,因此改变网络的能力有限。相反研究者为卷积神经网络(CNN)设计了更强大的模式(在卷积核中增加 “重编码” 参数),从而在每项新任务中实现更好的性能。

方法叙述

通道式轻量级重编码首先用一个固定的 backbone 作为一个任务共享的结构,这可以是一个在相对多样性的数据集(ImageNet-1k, Pascal VOC)上进行监督学习的预训练模型,也可以是在无语义标签的代理任务上学习的自监督学习模型(DINO,SwAV)。不同于其他的持续学习方法(比如 SUPSUP 使用一个随机初始化的固定结构,CCLL 和 EFTs 使用第一个任务学习后的模型作为 backbone),CLR 使用的预训练模型可以提供多种视觉特征,但这些视觉特征在其他任务上需要 CLR 层进行重编码。具体来说,研究者利用通道式线性变化(channel-wise linear transformation)对原有卷积核产生的特征图像进行重编码。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

图中展示了 CLR 的结构。CLR 适用于任何卷积神经网络,常见的卷积神经网络由 Conv 块(Residual 块)组成,包括卷积层、归一化层和激活层。

研究者首先把预训练的 backbone 固定,然后在每个固定卷积块中的卷积层后面加入通道式轻量级重编程层 (CLR 层)来对固定卷积核后的特征图进行通道式线性变化。

给定一张图片 X,对于每个卷积核 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务,可以得到通过卷积核的特征图 X’,其中每个通道的特征可以表示为 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务;之后用 2D 卷积核来对 X’的每个通道 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务 进行线性变化,假设每个卷积核 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务 对应的线性变化的卷积核为 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务,那么可以得到重编码后的特征图 优化学习效率:通过0.6%额外参数将旧模型迁移至新任务。研究者将 CLR 卷积核的初始化为同一变化核(即对于的 2D 卷积核,只有中间参数为 1,其余都为 0),因为这样可以使得最开始训练时原有固定 backbone 产生的特征和加入 CLR layer 后模型产生的特征相同。同时为了节约参数并防止过拟合,研究者并不会在的卷积核后面加入 CLR 层,CLR 层只会作用在的卷积核后。对于经过 CLR 作用的 ResNet50 来说,增加的可训练参数相比于固定的 ResNet50 backbone 只占 0.59%。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

对于持续学习,加入可训练的CLR参数和不可训练的backbone的模型可以依次学习每个任务。在测试时,研究者假设有一个任务预测器可以告诉模型测试图片属于哪个任务,然后固定的backbone和相应的任务专用CLR参数可以进行最终预测。由于CLR具有绝对参数隔离的特性(每个任务对应的CLR层参数都不一样,而共享的backbone不会改变),因此CLR不会受到任务数量的影响

实验结果

数据集:研究者使用图像分类作为主要任务,实验室收集了 53 个图像分类数据集,有大约 180 万张图片和 1584 个种类。这 53 个数据集包含了 5 个不同的分类目标:物体识别,风格分类,场景分类,计数和医疗诊断。

研究者选择了13种基线,可以大致分为3个类别

  • 动态网络:PSP,SupSup,CCLL,Confit,EFTs
  • 正则化:EWC,online-EWC,SI,LwF
  • 重放:ER,DERPP

还有一些不属于持续学习的基线,比如 SGD 和 SGD-LL。SGD 学习每个任务时对整个网络进行微调;SGD-LL 是一个变体,它对所有任务都使用一个固定的 backbone 和一个可学习的共享层,其长度等于所有任务最大的种类数量。

实验一:第一个任务的准确率

为了评估所有方法在克服灾难性遗忘的能力,研究者跟踪了学习新任务后每个任务的准确性。如果某个方法存在灾难性遗忘,那么在学习新任务后,同一任务的准确率就会很快下降。一个好的持续学习算法可以在学习新任务后保持原有的表现,这就意味着旧任务应受到新任务的影响最小。下图展示了本文方法从学完第 1 到第 53 个任务后第 1 个任务的准确率。总体而言,本文方法可以保持最高的准确率。更重要的是它很好地避免了灾难性遗忘并保持和原始训练方式得到的相同准确率无论持续学习多少个任务。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

第二个实验:完成所有任务后的平均准确率学习

下图所有方法在学完全部任务后的平均准确率。平均准确率反映了持续学习方法的整体表现。由于每个任务的难易程度不同,当增加一项新任务时,所有任务的平均精确度可能会上升或下降,这取决于增加的任务是简单还是困难。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

首先,让我们来分析一下参数和计算成本

对于持续学习,虽然获得更高的平均准确率非常重要,但是一个好的算法也希望可以最大限度地减少对额外网络参数的要求和计算成本。"添加一项新任务的额外参数" 表示与原始 backbone 参数量的百分比。本文以 SGD 的计算成本为单位,其他方法的计算成本按 SGD 的成本进行归一化处理。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

重写内容:不同骨干网络的影响分析

本文方法通过在相对多样化的数据集上使用监督学习或自监督学习的方法来训练得到预训练模型,从而作为与任务无关的不变参数。为了探究不同预训练方法的影响,本文选择了四种不同的、与任务无关的、使用不同数据集和任务训练出来的预训练模型。对于监督学习,研究者使用了在 ImageNet-1k 和 Pascal-VOC 在图像分类上的预训练模型;对于自监督学习,研究者使用了 DINO 和 SwAV 两种不同方法得到的预训练模型。下表展示了使用四种不同方法得到预训练模型的平均准确率,可以看出来无论哪种方法最后的结果都很高(注:Pascal-VOC 是一个比较小的数据集,所以准确率相对低一点),并且对不同的预训练 backbone 具有稳健性。

优化学习效率:通过0.6%额外参数将旧模型迁移至新任务

以上是优化学习效率:通过0.6%额外参数将旧模型迁移至新任务的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

币圈行情实时数据免费平台推荐前十名发布 币圈行情实时数据免费平台推荐前十名发布 Apr 22, 2025 am 08:12 AM

适合新手的加密货币数据平台有CoinMarketCap和非小号。1. CoinMarketCap提供全球加密货币实时价格、市值、交易量排名,适合新手与基础分析需求。2. 非小号提供中文友好界面,适合中文用户快速筛选低风险潜力项目。

如何在币安拿下 KERNEL 空投奖励 全流程攻略 如何在币安拿下 KERNEL 空投奖励 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里,新机遇总是不断涌现。当下,KernelDAO (KERNEL) 空投活动正备受瞩目,吸引着众多投资者的目光。那么,这个项目究竟是什么来头?BNB Holder 又能从中获得怎样的好处?别急,下面将为你一一揭晓。

Rexas Finance(RXS)可以在2025年超过Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Rexas Finance(RXS)可以在2025年超过Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Apr 21, 2025 pm 02:30 PM

在波动剧烈的加密货币市场中,投资者正寻求超越热门币种的替代方案。Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密货币,尽管占据着一定的市场地位,但也面临着市场情绪、监管不确定性和可扩展性等挑战。然而,一个新兴项目RexasFinance(RXS)正在崭露头角。它并非依靠名人效应或炒作,而是专注于将现实世界资产(RWA)与区块链技术结合,为投资者提供一种创新的投资方式。这一策略使其有望成为2025年最成功的项目之一。RexasFi

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

比特币成品结构分析图是啥?怎么画? 比特币成品结构分析图是啥?怎么画? Apr 21, 2025 pm 07:42 PM

绘制比特币结构分析图的步骤包括:1. 确定绘图目的与受众,2. 选择合适的工具,3. 设计框架并填充核心组件,4. 参考现有模板。完整的步骤确保图表准确且易于理解。

See all articles