目次
網友評論及作者解疑
ホームページ テクノロジー周辺機器 AI 2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

Apr 09, 2023 pm 03:41 PM
ai モデル

深層学習は、大規模な非凸最適化問題を比較的簡単に解決できる能力のおかげで、このような成果を達成することができました。非凸最適化は NP 困難ですが、いくつかの単純なアルゴリズム (通常は確率的勾配降下 (SGD) の変形) は、実際に大規模なニューラル ネットワークをフィッティングする際に驚くべき有効性を示しています。

この記事では、ワシントン大学の数人の学者が「Git Re-Basin: 置換対称を法とするモデルの結合」を執筆し、高次元の非凸最適化における SGD アルゴリズムを研究しました。深層学習における問題に対する不合理な効果。

1. SGD は、他の非凸最適化設定ではなぜ高次元の非凸深層学習損失ランドスケープの最適化で優れたパフォーマンスを発揮するのですか?ポリシー学習などの軌道最適化および推奨システムの堅牢性は大幅に低下しました?

2. 極小値はどこですか?初期化重みと最終トレーニング重みの間を線形補間すると、損失が滑らかかつ単調に減少するのはなぜですか?

3. ランダムな初期化とデータのバッチ処理順序が異なる 2 つの独立してトレーニングされたモデルが、ほぼ同じパフォーマンスを達成できるのはなぜですか?さらに、トレーニング損失曲線が同じに見えるのはなぜですか

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文アドレス: https://arxiv.org/pdf/2209.04836。 pdf

この記事では、モデルのトレーニングにはある程度の不変性があるため、異なるトレーニングでもほぼ同じパフォーマンスが示されると考えています。

なぜそうなるのでしょうか? 2019年、Breaらは、ニューラルネットワークの隠れユニットが配置の対称性を持っていることに気づきました。簡単に言うと、ネットワークの隠れ層にある任意の 2 つのユニットを交換でき、ネットワーク機能は同じままになります。 Entezari et al. 2021 は、これらの順列対称性により、損失を犠牲にすることなく重み空間内の点を線形に接続できる可能性があると推測しました。

以下では、誰もがより明確に理解できるように、この論文の著者の 1 人による例を使用してこの記事の主な目的を説明します。

あなたが A モデルをトレーニングし、友人が B モデルをトレーニングしたと仮定すると、2 つのモデルのトレーニング データは異なる可能性があります。それは問題ではありません。この記事で提案されている Git Re-Basin を使用すると、損失を損なうことなく、重み空間で 2 つのモデル A B をマージできます。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文の著者は、Git Re-Basin はあらゆるニューラル ネットワーク (NN) に適用できると述べています。そして彼らはそれを初めて実証しました。 2 つの独立してトレーニングされた (事前トレーニングなし) モデル (ResNets) 間でゼロバリア線形接続が可能です。

彼らは、マージ能力が SGD トレーニングの特性であることを発見しました。マージは初期化時には機能しませんが、位相変化が発生するため、時間の経過とともにマージが可能になるでしょう。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

# 彼らは、モデルの幅がマージ可能性と密接に関係していること、つまり、幅が広いほど優れていることも発見しました。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

また、すべてのアーキテクチャをマージできるわけではありません。VGG は ResNets よりもマージが難しいようです。

この結合方法には他にも利点があり、素で偏ったデータセットでモデルをトレーニングし、それらを重み空間で結合できます。たとえば、米国にあるデータと EU にあるデータがあるとします。何らかの理由でデータを混合できません。最初に別々のモデルをトレーニングし、次に重みをマージし、最後にマージされたデータセットに一般化することができます。

###

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

因此,在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連結和模型修補的未來發展方向,可能會應用在聯邦學習、分散式訓練以及深度學習最佳化等領域。

最後也提到,章節 3.2 中的權重匹配演算法只需 10 秒左右即可運行,所以節省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元相符的三種方法,對配對演算法還不清楚的小夥伴,可以查看原始論文。

網友評論及作者解疑

這篇論文在推特上引發了熱議,PyTorch 聯合創始人Soumith Chintala 表示如果這項研究可以遷移到更大的設置,則它可以實現的方向會更棒。合併兩個模型(包括權重)可以擴展 ML 模型開發,並可能在開源的共同開發模型中發揮巨大作用。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

另有人認為如果排列不變性能夠這樣高效地捕捉大部分等價性,它將為神經網路的理論研究提供啟發。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

論文一作、華盛頓大學博士 Samuel Ainsworth 也解答了網友提出的一些問題。

首先有人問,「論文中是否有關於在訓練中針對獨特basin 的任何提示?如果有一種方法可以做到對排列進行抽象,那麼訓練速度可能會更快。」

Ainsworth 回覆稱,這點自己沒有想到。他真的希望能夠以某種方式實現更快地訓練,但目前為止已被證明非常困難。問題在於 SGD 本質上是一種局部搜索,因此利用高階幾何並不是那麼容易。也許分散式訓練是一種可行的方法。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

還有人問是否適用於 RNN 和 Transformers? Ainsworth 表示原則上適用,但他還沒有對此進行實驗。時間會證明一切。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

最後有人提出,「這看起來對分散式訓練『成真』非常重要?難道DDPM(去噪擴散機率模型)不使用ResNet 殘差區塊嗎?」

Ainsworth 回覆稱,雖然他自己對DDPM 不是很熟悉,但直言不諱表示將它用於分散式訓練將非常令人興奮。

2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激する

以上が2 つのモデルを障害物なしでマージし、大規模な ResNet モデルの線形接続をわずか数秒で完了し、ニューラル ネットワークに関する新しい研究を刺激するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

トップ10の暗号通貨交換プラットフォーム世界最大のデジタル通貨交換リスト トップ10の暗号通貨交換プラットフォーム世界最大のデジタル通貨交換リスト Apr 21, 2025 pm 07:15 PM

交換は、今日の暗号通貨市場で重要な役割を果たしています。それらは、投資家が取引するためのプラットフォームであるだけでなく、市場の流動性と価格発見の重要なソースでもあります。世界最大の仮想通貨交換はトップ10にランクされており、これらの交換は取引量がはるかに先を行っているだけでなく、ユーザーエクスペリエンス、セキュリティ、革新的なサービスに独自の利点を持っています。リストの上にある交換は通常、ユーザーベースが大きく、広範な市場の影響力があり、その取引量と資産タイプは、他の取引所で到達するのが難しいことがよくあります。

See all articles