零障碍合并两个模型，大型ResNet模型线性连接只需几秒，神经网络启发性新研究-人工智能-PHP中文网

网友评论及作者解疑

首页

科技周边

人工智能

零障碍合并两个模型，大型ResNet模型线性连接只需几秒，神经网络启发性新研究

王林

Apr 09, 2023 pm 03:41 PM

ai 模型

深度学习能够取得如此成就，得益于其能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是 NP 困难的，但一些简单的算法，通常是随机梯度下降（SGD）的变体，它们在实际拟合大型神经网络时表现出惊人的有效性。

本文中，来自华盛顿大学的多位学者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》，他们研究了在深度学习中，SGD 算法在高维非凸优化问题上的不合理有效性。他们受到三个问题的启发：

1. 为什么 SGD 在高维非凸深度学习损失 landscapes 的优化中表现良好，而在其他非凸优化设置中，如 policy 学习、轨迹优化和推荐系统的稳健性明显下降 ?

2. 局部极小值在哪里？在初始化权值和最终训练权值之间进行线性插值时，为什么损失会平滑、单调地减小？

3. 两个独立训练的模型，它们具有不同的随机初始化和数据批处理顺序，为何会实现几乎相同的性能？此外，为什么它们的训练损失曲线看起来一样

论文地址：https://arxiv.org/pdf/2209.04836.pdf

本文认为：在模型训练中存在一些不变性，这样一来才会有不同的训练表现出几乎相同的性能。

为什么会这样呢？2019 年，Brea 等人注意到神经网络中的隐藏单元具有排列对称性。简单的说就是：我们可以交换网络中隐藏层的任意两个单元，而网络功能将保持不变。2021 年 Entezari 等人推测，这些排列对称可能允许我们在权值空间中线性连接点，而不损害损失。

下面我们以论文作者之一的举例来说明文章主旨，这样大家会更清楚。

假如说你训练了一个 A 模型，你的朋友训练了一个 B 模型，这两个模型训练数据可能不同。没关系，使用本文提出的 Git Re-Basin，你能在权值空间合并这两个模型 A+B，而不会损害损失。

论文作者表示，Git Re-Basin 可适用于任何神经网络（NN），他们首次演示了在两个独立训练（没有预先训练）的模型（ResNets）之间，可以零障碍的线性连通。

他们发现，合并能力是 SGD 训练的一个属性，在初始化时合并是不能工作的，但是会发生相变，因此随着时间的推移合并将成为可能。

他们还发现，模型宽度与可合并性密切相关，即越宽越好。

此外，并非所有架构都能合并：VGG 似乎比 ResNets 更难合并。

这种合并方法还有其他优点，你可以在不相交和有偏差的数据集上训练模型，然后在权值空间中将它们合并在一起。例如，你有一些数据在美国，一些在欧盟。由于某些原因，不能混合数据。你可以先训练单独的模型，然后合并权重，最后泛化到合并的数据集。

因此，在不需要预训练或微调的情况下可以混合训练过的模型。作者表示自己很想知道线性模式连接和模型修补的未来发展方向，可能会应用到联邦学习、分布式训练以及深度学习优化等领域。

最后还提到，章节 3.2 中的权重匹配算法只需 10 秒左右即可运行，所以节省了大量时间。论文第 3 章也介绍了 A 模型与 B 模型单元匹配的三种方法，对匹配算法还不清楚的小伙伴，可以查看原论文。

网友评论及作者解疑

这篇论文在推特上引发了热议，PyTorch 联合创始人 Soumith Chintala 表示如果这项研究可以迁移到更大的设置，则它可以实现的方向会更棒。合并两个模型（包括权重）可以扩展 ML 模型开发，并可能在开源的共同开发模型中发挥巨大作用。

另有人认为如果排列不变性能够这样高效地捕捉大部分等价性，它将为神经网络的理论研究提供启发。

论文一作、华盛顿大学博士 Samuel Ainsworth 也解答了网友提出的一些问题。

首先有人问，「论文中是否有关于在训练中针对独特 basin 的任何提示？如果有一种方法可以做到对排列进行抽象，那么训练速度可能会更快。」

Ainsworth 回复称，这点自己没有想到。他真的希望能够以某种方式实现更快地训练，但目前为止已被证明非常困难。问题在于 SGD 本质上是一种局部搜索，因此利用高阶几何并不是那么容易。也许分布式训练是一种可行的方法。

还有人问是否适用于 RNN 和 Transformers？Ainsworth 表示原则上适用，但他还没有对此进行实验。时间会证明一切。

最后有人提出，「这看起来对分布式训练『成真』非常重要？难道 DDPM（去噪扩散概率模型）不使用 ResNet 残差块吗？」

Ainsworth 回复称，虽然他自己对 DDPM 不是很熟悉，但直言不讳表示将它用于分布式训练将非常令人兴奋。

以上是零障碍合并两个模型，大型ResNet模型线性连接只需几秒，神经网络启发性新研究的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7716

Java教程

1641

CakePHP 教程

1395

Laravel 教程

1289

PHP教程

1232

显示更多

Related knowledge

WorldCoin（WLD）价格预测2025-2031：到2031年WLD会达到4美元吗？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。 WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思？跨链交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，这些平台通过各种技术支持多链资产交易。

对于加密货币行业来说，'黑色星期一抛售”是艰难的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌，Dogecoin(Doge)成为重灾区之一。其价格大幅下挫，去中心化金融(DeFi)总价值锁定(TVL)也出现显着下降。 “黑色星期一”的抛售潮席卷加密货币市场，Dogecoin首当其冲。其DeFiTVL跌至2023年水平，币价在过去一个月内下跌23.78%。 Dogecoin的DeFiTVL降至272万美元的低点，主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台，如无聊的Dao和Thorchain，TVL也分别下降了24.04%和20.

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议，已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议，已为AAVEDAO实现了一个法定人数。AAVE连锁计划（ACI）创始人马克·泽勒（MarcZeller）在X上宣布了这一点，并指出它标志着该协议的新时代。AAVE连锁倡议（ACI）创始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE协议令牌和引入令牌回购，已为AAVEDAO实现了法定人数。根据Zeller的说法，这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议，即在周三以每周100

混合型区块链交易平台有哪些 Apr 21, 2025 pm 11:36 PM

选择加密货币交易所的建议：1. 流动性需求，优先选择币安、Gate.io或OKX，因其订单深度与抗波动能力强。2. 合规与安全，Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能，KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

虚拟币价格上涨或者下降是为什么虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括：1.市场需求增加，2.供应量减少，3.利好消息刺激，4.市场情绪乐观，5.宏观经济环境；下降因素包括：1.市场需求减少，2.供应量增加，3.利空消息打击，4.市场情绪悲观，5.宏观经济环境。

如何在币安拿下 KERNEL 空投奖励全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里，新机遇总是不断涌现。当下，KernelDAO (KERNEL) 空投活动正备受瞩目，吸引着众多投资者的目光。那么，这个项目究竟是什么来头？BNB Holder 又能从中获得怎样的好处？别急，下面将为你一一揭晓。

币圈杠杆交易所排名币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有：1. OKX，适合高频交易者，提供最高100倍杠杆；2. Binance，适用于全球多币种交易者，提供125倍高杠杆；3. Gate.io，适合衍生品专业玩家，提供100倍杠杆；4. Bitget，适用于新手及社交化交易者，提供最高100倍杠杆；5. Kraken，适合稳健型投资者，提供5倍杠杆；6. Bybit，适用于山寨币探索者，提供20倍杠杆；7. KuCoin，适合低成本交易者，提供10倍杠杆；8. Bitfinex，适合资深玩

See all articles

零障碍合并两个模型，大型ResNet模型线性连接只需几秒，神经网络启发性新研究

网友评论及作者解疑

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题