目錄
網友評論及作者解疑
首頁 科技週邊 人工智慧 零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

Apr 09, 2023 pm 03:41 PM
ai 模型

深度學習能夠如此成就,得益於其能夠相對輕鬆地解決大規模非凸優化問題。儘管非凸優化是 NP 困難的,但一些簡單的演算法,通常是隨機梯度下降(SGD)的變體,它們在實際擬合大型神經網路時表現出驚人的有效性。

本文中,來自華盛頓大學的多位學者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他們研究了在深度學習中,SGD 演算法在高維非凸優化問題上的不合理有效性。他們受到三個問題的啟發:

1. 為什麼SGD 在高維非凸深度學習損失landscapes 的優化中表現良好,而在其他非凸優化設定中,如policy 學習、軌跡最佳化和推薦系統的穩健性明顯下降?

2. 局部極小值在哪裡?在初始化權值和最終訓練權值之間進行線性內插時,為什麼損失會平滑、單調地減少?

3. 兩個獨立訓練的模型,它們有不同的隨機初始化和資料批次順序,為何會達到幾乎相同的效能?此外,為什麼它們的訓練損失曲線看起來一樣

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

論文地址:https://arxiv.org/pdf/2209.04836. pdf

本文認為:在模型訓練中存在一些不變性,這樣一來才會有不同的訓練表現出幾乎相同的表現。

為什麼會這樣呢? 2019 年,Brea 等人注意到神經網路中的隱藏單元具有排列對稱性。簡單的說就是:我們可以交換網路中隱藏層的任兩個單元,而網路功能將保持不變。 2021 年 Entezari 等人推測,這些排列對稱可能允許我們在權值空間中線性連接點,而不會損害損失。

下面我們以論文作者之一的舉例來說明文章主旨,這樣大家會更清楚。

假如說你訓練了一個 A 模型,你的朋友訓練了一個 B 模型,這兩個模型訓練資料可能不同。沒關係,使用本文提出的 Git Re-Basin,你能在權值空間合併這兩個模型 A B,而不會損害損失。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

論文作者表示,Git Re-Basin 可適用於任何神經網路(NN),他們首次示範了在兩個獨立訓練(沒有預先訓練)的模型(ResNets)之間,可以零障礙的線性連通。

他們發現,合併能力是 SGD 訓練的一個屬性,在初始化時合併是不能工作的,但是會發生相變,因此隨著時間的推移合併將成為可能。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

他們也發現,模型寬度與可合併性密切相關,即越寬越好。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

此外,並非所有架構都能合併:VGG 似乎比 ResNets 更難合併。

這個合併方法還有其他優點,你可以在不相交和偏差的資料集上訓練模型,然後在權值空間中將它們合併在一起。例如,你有一些數據在美國,一些在歐盟。由於某些原因,不能混合數據。你可以先訓練單獨的模型,然後合併權重,最後再泛化到合併的資料集。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

因此,在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連結和模型修補的未來發展方向,可能會應用在聯邦學習、分散式訓練以及深度學習最佳化等領域。

最後也提到,章節 3.2 中的權重匹配演算法只需 10 秒左右即可運行,所以節省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元相符的三種方法,對配對演算法還不清楚的小夥伴,可以查看原始論文。

網友評論及作者解疑

這篇論文在推特上引發了熱議,PyTorch 聯合創始人Soumith Chintala 表示如果這項研究可以遷移到更大的設置,則它可以實現的方向會更棒。合併兩個模型(包括權重)可以擴展 ML 模型開發,並可能在開源的共同開發模型中發揮巨大作用。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

另有人認為如果排列不變性能夠這樣高效地捕捉大部分等價性,它將為神經網路的理論研究提供啟發。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

論文一作、華盛頓大學博士 Samuel Ainsworth 也解答了網友提出的一些問題。

首先有人問,「論文中是否有關於在訓練中針對獨特basin 的任何提示?如果有一種方法可以做到對排列進行抽象,那麼訓練速度可能會更快。」

Ainsworth 回覆稱,這點自己沒有想到。他真的希望能夠以某種方式實現更快地訓練,但目前為止已被證明非常困難。問題在於 SGD 本質上是一種局部搜索,因此利用高階幾何並不是那麼容易。也許分散式訓練是一種可行的方法。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

還有人問是否適用於 RNN 和 Transformers? Ainsworth 表示原則上適用,但他還沒有對此進行實驗。時間會證明一切。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

最後有人提出,「這看起來對分散式訓練『成真』非常重要?難道DDPM(去噪擴散機率模型)不使用ResNet 殘差區塊嗎?」

Ainsworth 回覆稱,雖然他自己對DDPM 不是很熟悉,但直言不諱表示將它用於分散式訓練將非常令人興奮。

零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究

以上是零障礙合併兩個模型,大型ResNet模型線性連結只需幾秒,神經網路啟發性新研究的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

對於加密貨幣行業來說,'黑色星期一拋售”是艱難的一天 對於加密貨幣行業來說,'黑色星期一拋售”是艱難的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌,Dogecoin(Doge)成为重灾区之一。其价格大幅下挫,去中心化金融(DeFi)总价值锁定(TVL)也出现显著下降。“黑色星期一”的抛售潮席卷加密货币市场,Dogecoin首当其冲。其DeFiTVL跌至2023年水平,币价在过去一个月内下跌23.78%。Dogecoin的DeFiTVL降至272万美元的低点,主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台,如无聊的Dao和Thorchain,TVL也分别下降了24.04%和20.

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 Apr 21, 2025 pm 11:24 PM

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

See all articles