目录
把深度模型打散并重组
实验结果
模型重组适用于迁移学习" >模型重组适用于迁移学习
总结
首页 科技周边 人工智能 积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷

积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷

Apr 11, 2023 pm 08:43 PM
模型 深度学习

在距今980年前的北宋仁宗庆历年间,一场关于知识的革命在华夏大地正悄然发生。

这一切的导火索,并非那些身居庙堂的圣贤之言,而是一块块烧制规整的刻字泥坯。

这场革命,正是「活字印刷术」

活字印刷的精妙之处在于其中「积木拼装」的思想:工匠先制成单字的阳文反文字模,再按照稿件把单字挑选出来刷墨拓印,这些字模可按需求多次使用。

相比于雕版印刷术「一印一版」的繁琐工艺,模块化-按需组装-多次使用的工作模式几何倍数地提高印刷术的工作效率,也为千年来人类的文明发展传承奠定了基础。

回归到深度学习领域,在大预训练模型风行的今天,如何将一系列大模型的能力迁移到下游特定任务中已经成为一个关键问题。

以往的知识迁移或复用方法类似「雕版印刷」:我们往往需要按照任务需求训练新的完整模型。这些方法往往伴随着极大地训练成本,并难以扩展到大量的任务当中。

于是一个很自然的想法产生了:我们是否可以通过把神经网络,也看作一个个积木的拼装,并通过对已有网络进行重组装的方式,获得新的网络,并以此进行迁移学习呢?

图片

在NeurIPS 2022上,来自新加坡国立大学LVlab的团队就提出了一种全新的迁移学习范式,称为《Deep Model Reassembly》深度模型重组。

图片

论文链接:https://arxiv.org/abs/2210.17409

代码链接:https://github.com/Adamdad/DeRy

项目主页:https://adamdad.github.io/dery/

OpenReview:https://openreview.net/forum?id=gtCPWaY5bNh

作者首先将已有的预训练模型按照功能相似度拆解成一个个子网络,再通过把子网络重新组装的方式,构建在特定任务上高效且易用的模型。

该论文以886的评分被NeurIPS接收,并被推荐为Paper Award Nomination。 

图片

本文中,作者探索了一种新的知识迁移任务,称为深度模型重组(Deep Model Reassembly, 简称DeRy),用于通用模型重用。

给定一组在不同数据和异构架构上训练得到的预训练模型,深度模型重组首先将每个模型拆分为独立的模型块,然后有选择地以在硬件和性能约束下对子模型块重新组装。

图片

该方法类似于将深度神经网络模型当作成积木:将已有大积木拆解成为一个个小积木块,然后将零件按照需求组装起来。组装起来的新模型不但应具备更强的性能;且组装过程应尽可能不改变原模块的结构和参数,保证其的高效性。

把深度模型打散并重组

本文的方法可分为两部分。DeRy首先求解一个覆盖集问题(Set Cover Problem)并对所有预训练网络按照功能级进行拆分;第二步中,DeRy将模型拼装形式化为一个0-1整数规划问题,保证组装后模型在特定任务上性能最佳。

图片

深度模型重组(Deep Model Reassembly)

首先作者对深度模型重组装的问题进行定义:给定个训练好的深度模型,称作一个模型库。

每一个模型由层链接组合而成, 表示为。不同的网络可以拥有完全不同的结构和操作,只要保证模型是一层一层连接而成。

给定一个任务,希望找到在上效果最佳的层混合模型,且模型的计算量满足一定的限制:

图片

在任务上的性能; 表示第个模型的第层操作;

该问题需要搜索对所有模型层的所有排列,以期最大化收益。从本质而言,这一任务牵涉一个极其复杂的组合优化。

为了简化搜索成本,本文首先将模型库模型从深度方向拆分开,形成一些更浅更小的子网络;然后进行子网络层次上的拼接搜索。

按照功能级对网络进行拆分

DeRy的第一步在于把深度学习模型像积木一样拆解开。作者采用了在深度上的网络拆分方式,将深层模型拆分为一些较浅的小模型。

文中希望拆开的子模型尽可能拥有不同的功能性。这一过程可以类比于把积木拆解,并分门别类放入玩具箱的过程:相似的积木被放在一起,不同的积木被拆开。

例如,将模型拆分为底层和高层,并期待底层主要负责识别曲线或形状等局部模式,而高层能判断样本的整体语义。

图片

使用一般的特征相似度衡量指标,可以对任意模型的功能四相似度进行量化的度量。

其中的关键思想在于,对于相似的输入,相同功能的神经网络能产生相似的输出。

于是,对于两个网络和和起对应的输入张量X和X',他们的功能相似性被定义为:

图片

于是就可以通过功能相似性将模型库划分成为个功能等价集

在每一个等价集中的子网络拥有较高的功能相似度,同时每个模型的划分保证模型库的可分性。

这样进行拆解的一个核心好处在于,由于具有功能相似性,每一个等价集中的子网络可以看做近似可交换的,即一个网络块可以被同一等价集的另一子网络所替换,而不影响网络预测。

上述拆分问题可以形式化为一个三层的有约束的优化问题:

图片

该问题的内层优化和一般的覆盖集问题或的图分割问题有较大的相似性。于是,作者使用一种启发式的Kernighan-Lin (KL)算法对内层进行优化。

其大意在于,对两个随机初始化的子模型,每次交换一层操作,如果该交换能增加评估函数的值,则保留这一交换;否则放弃这一交换。

这里的外层循环采取了一种K-Means的聚类算法。

对于每一次的网络划分,总是将每一个子网络分配到中心距离与其最大的一个功能集。 由于内外层循环都是迭代式切有收敛性保证的,就能通过求解以上问题得到按照功能级的最优子网络拆分。

基于整数优化的网络组装

网络拆分将每个网络分成个子网络,每个子网络属于一个等价集。可以由此作为搜索空间,找到在下游任务上最优的网络拼接。

图片

由于子模型的多样性,这种网络组装是一个搜索空间较大的组合优化问题,定义了一定的搜索条件:每次网络组合从同一个功能集拿出一个网络块,并按照其在原始网络中的位置进行放置;合成的网络需满足计算量的限制。这一过程被描述为一个0-1整数优化问题优化。

图片

为了进一步减小每一次计算组合模型性能的训练开销,作者借鉴了NAS训练中一种无需训练的替代函数,称为NASWOT。由此,可以只是用网络在指定数据集上的推理,来近似网络的真实性能。

通过上述的拆分-重组过程,就能将不同的预训练模型拼接融合起来,以得到全新且更强的模型。

实验结果

模型重组适用于迁移学习

作者将一个包涵30个不同预训练网络的模型库尽心拆解重组,并在ImageNet和其他9个下游分类任务上进行性能评估。

实验中采用了两种不同的训练方式:Full-Tuning,表示对拼接之后的模型所有参数都进行训练;Freeze-Tuning,表示只对拼接后的连接层进行训练。

此外,还选择了五种尺度的模型并进行比较,称为DeRy(, ,)。

图片

可以再上图看到,在ImageNet数据集上,DeRy得到的不同尺度的模型都可以优于或持平模型库中大小相当的模型。

可以发现,即便只训练链接部分的参数,模型仍然可以获得较强的性能增益。例如DeRy(4,90,20)的模型在只训练1.27M参数的条件下达到了78.6%的Top1准确率。

图片

同时在9个迁移学习的实验也验证了DeRy的有效性。可以看到在没有预训练的情况下,DeRy的模型在各个模型大小的比较中都能优于其他模型;通过对重新组装的模型进行持续预训练,模型性能还能够有较大幅度的提升,达到红色的曲线。

相比于其他的一些从模型库做迁移学习的方法例如LEEP或LogME,DeRy可以超越模型库本身的性能限制,甚至优于原本模型库中的最佳模型。

模型重组的性质探究

作者也很好奇本文提出的模型重组的性质,例如「模型会按照什么样的模式进行拆分?」和「模型会按照何种规则进行重组?」。对此作者提供了实验进行分析。

功能相似性,重组位置与重组性能

作者探究了将同一个网络块被其他拥有不同功能相似度的网络块进行替换后,Freeze-Tuning 20个epoch的的性能对比。​

图片

对在ImageNet上训练后的ResNet50, 将其第3和第4个stage的网络块, 与ResNet101, ResNeXt50和RegNetY8G的不同网络块进行替换。

可以观察到,替换的位置对性能有极大的影响。

图片

比如将第3个stage换成其他网络的第3个stage,重组网络的性能会特别强。同时,功能相似性也是和重组性能正向匹配的。

在同一深度的网络模型块有较大的相似度,导致了训练后有较强的模型能力。这指向了相似性-重组位置-重组性能三者的依存和正向关系。

拆分结果的观察 

下图中,作者画出了第一步拆分的结果。颜色代表网络块和美歌等价集中心网络块的相似性。

可以看到,本文提出的划分倾向于将子网络按照深度聚类在一起并加以拆分。同时CNN和Transformer的功能相似性数据较小,但CNN与不同架构CNN之间功能相似性通常较大。

图片

使用NASWOT作为性能指标 

由于本文第一次应用NASWOT来进行零训练迁移性预测,作者也对这一指标的可靠性进行了检验。

在下图中,作者计算不同模型爱不同数据集上NASWOT的分数数值,并与迁移学习的准确的准确率加一对比。

可以观察到,NASWOT分数得到了较准确的性能排序(Kendall's Tau相关性)。这表明本文使用的零训练指标能有效预测模型的在下游数据的性能。

图片

总结

本文提出了一种新的知识迁移任务,称为深度模型重组 (Deep Model Reassembly, 简称DeRy)。他通过打散已有异质预训练模型并重新组装的方式,来构造与下游任务适配的模型。

作者提出了一个简单的两阶段实现方式来完成这一任务。首先,DeRy求解一个覆盖集问题并对所有预训练网络按照功能级进行拆分;第二步中,DeRy将模型拼装形式化为一个0-1整数规划问题,保证组装后模型在特定任务上性能最佳。

该工作不但收获了较强的性能提升,同时也映射出了不同神经网络之间可能存在的连接性。

以上是积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

超越ORB-SLAM3!SL-SLAM:低光、严重抖动和弱纹理场景全搞定 超越ORB-SLAM3!SL-SLAM:低光、严重抖动和弱纹理场景全搞定 May 30, 2024 am 09:35 AM

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

See all articles