目次
なぜテスト時にワイルドに適応するのでしょうか?
ホームページ テクノロジー周辺機器 AI Batch Norm レイヤーなどの欠点を解決するオープン環境ソリューション

Batch Norm レイヤーなどの欠点を解決するオープン環境ソリューション

Apr 26, 2023 am 10:01 AM
テクノロジー 開発する

テスト時間適応 (TTA) メソッドは、テスト フェーズ中にモデルが迅速な教師なし/自己教師あり学習を実行するようにガイドします。これは現在、ディープ モデルの分布外汎化能力を向上させるための強力かつ効果的なツールです。 。ただし、動的なオープン シナリオでは、安定性が不十分であることが依然として既存の TTA 手法の大きな欠点であり、実際の展開を大きく妨げています。この目的を達成するために、華南理工大学、テンセントAI研究所、シンガポール国立大学の研究チームは、既存のTTA手法が動的なシナリオにおいて不安定である理由を統一的な観点から分析し、依存する正規化層が脆弱であることを指摘した。安定性の主な理由の 1 つは、さらに、テスト データ ストリームにノイズや大規模な勾配がある一部のサンプルでは、​​縮退した自明なソリューションにモデルを簡単に最適化できることです。これに基づいて、動的なオープンシナリオでの安定かつ効率的なテスト時間モデルのオンライン移行と一般化を達成するために、シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化方法SARがさらに提案されます。この研究は、ICLR 2023 Oral (受理された論文の上位 5%) に選ばれました。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

  • 論文のタイトル: ダイナミック ワイルド ワールドにおける安定したテスト時間の適応に向けて
  • #論文アドレス: https://openreview.net/forum?id=g2YraF75Tj
  • オープンソース コード: https://github.com/ mr-eggplant/SAR
テスト時適応とは何ですか?

従来の機械学習テクノロジーは通常、事前に収集された大量のトレーニング データを学習し、推論予測用のモデルを修正します。このパラダイムは、テスト データとトレーニング データが同じデータ分布から得られる場合に、非常に優れたパフォーマンスを達成することがよくあります。ただし、実際のアプリケーションでは、テスト データの分布が元のトレーニング データの分布から容易に逸脱する可能性があります (分布シフト)。たとえば、テスト データを収集する場合: 1) 天候の変化により、画像に雨、雪、霧が含まれます。オクルージョン; 2) 不適切な撮影により画像がぼやけている、またはセンサーの劣化により画像にノイズが含まれている; 3) モデルは北部の都市で収集されたデータに基づいてトレーニングされましたが、南部の都市にも展開されました。上記の状況は非常に一般的ですが、これらのシナリオではパフォーマンスが大幅に低下する可能性があり、現実世界 (特に自動運転などの高リスク アプリケーション) の広範な展開での使用が大幅に制限される可能性があるため、ディープ モデルにとって致命的なことがよくあります。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

図 1 テスト時適応の概略図 ([5] を参照) および現在の方法特性の比較

との関係は、図 1 に示すように、従来の機械学習パラダイムとは異なります。テスト サンプルが到着した後、Test-時間適応 (TTA) は、まずデータに基づいて、自己教師ありまたは教師なしの方法でモデルを微調整するために使用され、次に更新されたモデルを使用して最終予測が行われます。一般的な自己/教師なし学習の目標には、回転予測、対照学習、エントロピー最小化などが含まれます。これらの方法はすべて、優れた配布外汎化パフォーマンスを示します。従来の微調整および教師なしドメイン適応方法と比較して、テスト時適応では、より効率的でより汎用的な オンライン移行を実現できます。さらに、完全なテスト時適応方法 [2] は、元のトレーニング データやモデルの元のトレーニング プロセスへの干渉を必要とせずに、事前トレーニングされたモデルに適応できます。上記の利点により、TTA 法の実用的な汎用性が大幅に向上し、その優れたパフォーマンスと相まって、TTA は移行、一般化、およびその他の関連分野で非常に注目されている研究方向となっています。

なぜテスト時にワイルドに適応するのでしょうか?

既存の TTA 手法は、配布外の一般化において大きな可能性を示していますが、この優れたパフォーマンスは、一定期間内のデータ ストリームのサンプルなどの特定のテスト条件下で得られることがよくあります。すべてが同じ分布シフト タイプに由来し、テスト サンプルの真のカテゴリ分布は均一かつランダムであり、適応を実行する前に毎回ミニバッチ サンプルが必要になります。しかし実際には、上記の潜在的な仮定を現実のオープンワールドで常に満たすことは困難です。実際には、テスト データ ストリームは任意の組み合わせで到着する可能性があり、理想的には モデルはテスト データ ストリームの到着形式についていかなる仮定も立てるべきではありません。図 2 に示すように、テスト データ フローでは、(a) サンプルが異なる分布オフセットから取得されている (つまり、混合サンプル オフセット)、 (b) サンプル バッチ サイズが発生する可能性があります。は非常に小さい (偶数 1);(c)一定期間内のサンプルの真のカテゴリ分布は不均等であり、動的に変化します。この記事では、上記のシナリオの TTA を Wild TTA と呼びます。残念ながら、既存の TTA 手法は、このようなワイルドなシナリオでは脆弱で不安定であることが多く、移行パフォーマンスが限られており、元のモデルのパフォーマンスに損害を与える可能性さえあります。したがって、実際のシナリオで TTA 手法の大規模かつ詳細なアプリケーション展開を真に実現したい場合、Wild TTA 問題を解決することは避けられない重要な部分です。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#図 2 モデル テスト中の適応中の動的オープン シーン

ソリューションのアイデアと技術的ソリューション

この記事では、TTA が多くのワイルド シナリオで失敗する理由を統一的な観点から分析し、解決策を提供します。

1. Wild TTA が不安定なのはなぜですか?

(1) バッチ正規化 (BN) は、動的シナリオにおける TTA の不安定性の主な理由の 1 つです : 既存の TTA 手法は、通常、以下に基づいて確立されています。適応 BN 統計では、テスト データを使用して BN 層の平均と標準偏差が計算されます。ただし、実際の 3 つの動的シナリオでは、BN 層内の統計推定精度に偏りが生じ、TTA が不安定になります。

  • シナリオ (a) : BN は実際には特定のテスト データの分布を表しており、一連の統計パラメータを使用して複数の分布を同時に推定すると、必然的にパフォーマンスが制限されます (図 3 を参照)
  • シナリオ (b) : BN の統計はバッチ サイズに依存します。小さなバッチ サイズのサンプルでは、​​BN の正確な統計的推定値を取得することは困難です。図 4 を参照してください。
  • シナリオ (c): サンプルラベルの分布が不均衡であると、BN レイヤー内の統計に偏りが生じます。つまり、統計が特定のカテゴリ (バッチ内でより大きな割合を持つカテゴリ) に偏ります (図 5 を参照);

上記の分析をさらに検証するために、この記事では、2 つの代表的な TTA メソッド (TTT [1] および Tent [2]) に基づいて、広く使用されている 3 つのモデル (異なる BatchLayerGroup Norm を備えた) を検討します。最終的な結論は次のとおりです。 バッチに依存しない Norm レイヤー (Group および Layer Norm) は、Batch Norm の制限をある程度回避し、動的なオープン シナリオで TTA を実行するのにより適しており、安定性も高くなります## #。そのため、本記事でもGroupLayer Normを搭載したモデルをベースにメソッド設計を行っていきます。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#図 3 混合分布部分移動におけるさまざまな方法とモデル (さまざまな正規化層)パフォーマンスの低下

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

##図 4 さまざまな方法とモデル ( さまざまな正規化レイヤー) の異なるバッチ サイズでのパフォーマンス。図の斜線部分はモデルの性能の標準偏差を表します。ResNet50-BN と ResNet50-GN の標準偏差は小さすぎるため、図では有意ではありません (下図と同じ)

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#図 5 オンラインの不均衡なラベル分布シフトにおけるさまざまなメソッドとモデル (さまざまな正規化層) のパフォーマンス パフォーマンスが大きいほど図の横軸の不均衡率が大きいほどラベルの不均衡が深刻であることを示します

(2) オンラインエントロピー最小化の最適化が容易モデルを縮退自明解に、つまり、任意のサンプルを同じクラスに予測します。モデルの劣化と崩壊現象、つまり、すべてのサンプル (実際のカテゴリが異なる) が同じクラスに予測されると同時に、モデルの勾配のノルムがモデルの崩壊の前後で急速に増加し、その後ほぼ 0 に低下します。図 6 (c) の側面の説明を参照してください。これは、モデル パラメーターを破壊し、モデルの崩壊を引き起こす何らかの大規模/ノイズ勾配です。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#図 6 オンライン テスト中のエントロピー最小化の失敗例の分析

2. シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化手法

上記のモデル劣化問題を軽減するために、この論文では、は、テスト中にシャープネスを意識した信頼性の高いエントロピー最小化手法 (SAR) を提案します。この問題は 2 つの方法で軽減されます: 1)

信頼性の高いエントロピー最小化

は、モデルの適応更新から大きな/ノイズの多い勾配を生成する 一部の サンプルを削除します; 2) モデルのシャープネスの最適化 モデルは、残りの サンプルで生成される 特定のノイズ勾配 の影響を受けなくなります。具体的な詳細は次のように説明されます。 信頼性の高いエントロピー最小化

: エントロピーに基づいて、勾配選択のための代替判断指標が確立され、高エントロピー サンプル (図 6 (d) 領域 1 および 2 のサンプルを含む) はモデル適応から除外され、モデル更新には参加しません:

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

ここで、x はテスト サンプルを表し、Θ はモデル パラメーターを表し、

は指標関数を表し、Batch Norm层等暴露TTA短板,开放环境下解决方案来了 はサンプルのエントロピーを表します。予測結果、Batch Norm层等暴露TTA短板,开放环境下解决方案来了 はスーパーパラメータを表します。 Batch Norm层等暴露TTA短板,开放环境下解决方案来了# の場合のみ、サンプルは逆伝播計算に参加します。 Batch Norm层等暴露TTA短板,开放环境下解决方案来了

シャープネスに敏感なエントロピー最適化: 信頼性の高いサンプル選択メカニズムによってフィルタリングされたサンプルには、図 6 (d) 領域 4 のサンプルが含まれることを避けることができません。これらのサンプルはモデルに干渉し続けるノイズや大きな勾配が発生する可能性があります。この目的を達成するために、この記事では、ノイズ勾配によるモデルの更新の影響を受けないようにする、つまり元のモデルのパフォーマンスに影響を与えないように、モデルをフラットな最小値に最適化することを検討します。最適化の目標は次のとおりです:

Batch Norm层等暴露TTA短板,开放环境下解决方案来了上記のターゲットの最終的なグラデーション更新フォームは次のとおりです:

このうち Batch Norm层等暴露TTA短板,开放环境下解决方案来了 は SAM [4] からインスピレーションを受けており、一次テイラー展開による近似解によって得られます。この文書の原文とコードを参照してください。

#現時点でのこの記事の全体的な最適化目標は次のとおりです:

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

# #さらに、上記のスキームが極端な条件下でも失敗する可能性を防ぐために、モデル回復戦略がさらに導入されます。モデルが劣化または崩壊していないかをモバイル監視することで、モデルを復元することが決定されます。モデルの元の値は、必要な瞬間にパラメータを更新します。

実験評価

動的オープン シナリオでのパフォーマンス比較

SAR は上記に基づいています3 つの動的なオープン シナリオ、すなわち、a) 混合分布シフト、b) 単一サンプル適応、および c) オンライン不均衡クラス分布シフトが、ImageNet-C データ セットで実験的に検証され、その結果が表 1、2、および表に示されています。 3. SAR は 3 つのシナリオすべてで、特にシナリオ b) と c) で顕著な結果を達成しており、SAR はベース モデルとして VitBase を使用しており、その精度は現在の SOTA メソッド EATA を 10% 近く上回っています。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#表 1 ImageNet-C の 15 種類の破損に対する既存の手法と組み合わせた SAR のパフォーマンス比較動的シナリオ (a) に対応するシナリオ、および既存の方法との効率比較

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

##表 2 動的シナリオに対応する、ImageNet-C 上の単一サンプル適応シナリオにおける SAR と既存の手法のパフォーマンス比較 (b)

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

##表 3 ImageNet-C 上のオンライン不均衡クラス分布シフト シナリオにおける SAR と既存手法のパフォーマンス比較、対応する動的シーン (c)

アブレーション実験

と勾配クリッピング法の比較

:グラデーション クリッピングは、大きなグラデーションがモデルの更新に影響を与える (または崩壊を引き起こす) ことを避けるための単純かつ直接的な方法です。ここでは、勾配クリッピングの 2 つの変形 (値による、またはノルムによる) との比較を示します。以下の図に示すように、勾配クリッピングは勾配クリッピングしきい値 δ の選択に非常に敏感であり、δ が小さいほどモデルが更新されていない結果と等しく、δ が大きいほどモデルの崩壊を避けることが困難になります。対照的に、SAR は複雑なハイパーパラメータ フィルタリング プロセスを必要とせず、勾配クリッピングよりも大幅に優れたパフォーマンスを発揮します。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#ImageNet-C のグラデーション クリッピング メソッドを使用した図 7 (ショット ノイズ、レベル 5)オンラインの不均衡なラベル配布シフト シナリオについて。精度は、以前のすべてのテスト サンプルに基づいてオンラインで計算されます。

アルゴリズムのパフォーマンスに対するさまざまなモジュールの影響: 以下の表に示すように、SAR のさまざまなモジュールの相乗効果により、動的オープン シナリオでのテスト中のモデルの適応安定性が効果的に向上します。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#表 4 ImageNet-C 上の SAR オンライン不均衡ラベル分布 (レベル 5) アブレーション実験オフセットシナリオ

#

損失表面の鮮明さの可視化: モデルの重みに摂動を加えて損失関数を可視化した結果を次の図に示します。その中で、SAR は Tent よりも損失が最も低い等高線内に広い領域 (濃い青色の領域) を持ち、SAR によって得られるソリューションがより平坦で、ノイズ/より大きな勾配に対してより堅牢で、より強力な耐干渉能力を備えていることを示しています。

Batch Norm层等暴露TTA短板,开放环境下解决方案来了

#図 8 エントロピー損失曲面の視覚化

結論

この記事は、動的オープン シナリオでのモデルのオンライン テスト中の適応の不安定性の問題を解決することを目的としています。この目的のために、この記事ではまず、実際の動的シナリオにおいて既存の手法が失敗する理由を統一的な観点から分析し、詳細な検証を行うための完全な実験を設計します。これらの分析に基づいて、この論文は最終的に、シャープネスに敏感で信頼性の高いテスト時間エントロピー最小化方法を提案します。この方法は、モデル更新に対する大きな勾配/ノイズを持つ特定のテストサンプルの影響を抑制することにより、安定かつ効率的なモデルのオンラインテスト時間適応を実現します。 。

以上がBatch Norm レイヤーなどの欠点を解決するオープン環境ソリューションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

おすすめのAI支援プログラミングツール4選 おすすめのAI支援プログラミングツール4選 Apr 22, 2024 pm 05:34 PM

この AI 支援プログラミング ツールは、急速な AI 開発のこの段階において、多数の有用な AI 支援プログラミング ツールを発掘しました。 AI 支援プログラミング ツールは、開発効率を向上させ、コードの品質を向上させ、バグ率を減らすことができます。これらは、現代のソフトウェア開発プロセスにおける重要なアシスタントです。今日は Dayao が 4 つの AI 支援プログラミング ツールを紹介します (すべて C# 言語をサポートしています)。皆さんのお役に立てれば幸いです。 https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot は、より少ない労力でより迅速にコードを作成できるようにする AI コーディング アシスタントであり、問​​題解決とコラボレーションにより集中できるようになります。ギット

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Mar 06, 2024 pm 05:34 PM

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

どのAIプログラマーが一番優れているでしょうか? Devin、Tongyi Lingma、SWE エージェントの可能性を探る どのAIプログラマーが一番優れているでしょうか? Devin、Tongyi Lingma、SWE エージェントの可能性を探る Apr 07, 2024 am 09:10 AM

世界初の AI プログラマー Devin の誕生から 1 か月も経たない 2022 年 3 月 3 日、プリンストン大学の NLP チームはオープンソース AI プログラマー SWE-agent を開発しました。 GPT-4 モデルを利用して、GitHub リポジトリの問題を自動的に解決します。 SWE ベンチ テスト セットにおける SWE エージェントのパフォーマンスは Devin と同様で、平均 93 秒かかり、問題の 12.29% を解決しました。専用端末と対話することで、SWE エージェントはファイルの内容を開いて検索したり、自動構文チェックを使用したり、特定の行を編集したり、テストを作成して実行したりできます。 (注: 上記の内容は元の内容を若干調整したものですが、原文の重要な情報は保持されており、指定された文字数制限を超えていません。) SWE-A

Go 言語を使用してモバイル アプリケーションを開発する方法を学ぶ Go 言語を使用してモバイル アプリケーションを開発する方法を学ぶ Mar 28, 2024 pm 10:00 PM

Go 言語開発モバイル アプリケーション チュートリアル モバイル アプリケーション市場が活況を続ける中、ますます多くの開発者が Go 言語を使用してモバイル アプリケーションを開発する方法を検討し始めています。シンプルで効率的なプログラミング言語として、Go 言語はモバイル アプリケーション開発でも大きな可能性を示しています。この記事では、Go 言語を使用してモバイル アプリケーションを開発する方法を詳しく紹介し、読者がすぐに始めて独自のモバイル アプリケーションの開発を開始できるように、具体的なコード例を添付します。 1. 準備 始める前に、開発環境とツールを準備する必要があります。頭

Android 開発に最適な Linux ディストリビューションはどれですか? Android 開発に最適な Linux ディストリビューションはどれですか? Mar 14, 2024 pm 12:30 PM

Android 開発は多忙で刺激的な仕事であり、開発に適した Linux ディストリビューションを選択することが特に重要です。数多くある Linux ディストリビューションの中で、Android 開発に最適なのはどれでしょうか?この記事では、この問題をいくつかの側面から検討し、具体的なコード例を示します。まず、現在人気のある Linux ディストリビューション (Ubuntu、Fedora、Debian、CentOS など) をいくつか見てみましょう。これらにはそれぞれ独自の利点と特徴があります。

レビュー!深いモデルの融合 (LLM/基本モデル/フェデレーテッド ラーニング/ファインチューニングなど) レビュー!深いモデルの融合 (LLM/基本モデル/フェデレーテッド ラーニング/ファインチューニングなど) Apr 18, 2024 pm 09:43 PM

9 月 23 日、論文「DeepModelFusion:ASurvey」が国立国防技術大学、JD.com、北京理工大学によって発表されました。ディープ モデルの融合/マージは、複数のディープ ラーニング モデルのパラメーターまたは予測を 1 つのモデルに結合する新しいテクノロジーです。さまざまなモデルの機能を組み合わせて、個々のモデルのバイアスとエラーを補償し、パフォーマンスを向上させます。大規模な深層学習モデル (LLM や基本モデルなど) での深層モデルの融合は、高い計算コスト、高次元のパラメーター空間、異なる異種モデル間の干渉など、いくつかの課題に直面しています。この記事では、既存のディープ モデル フュージョン手法を 4 つのカテゴリに分類します。 (1) 「パターン接続」。損失低減パスを介して重み空間内の解を接続し、より適切な初期モデル フュージョンを取得します。

VSCode について: このツールは何に使用されますか? VSCode について: このツールは何に使用されますか? Mar 25, 2024 pm 03:06 PM

「VSCode について: このツールは何に使用されますか?」 》初心者でも経験豊富な開発者でも、プログラマーとしてはコード編集ツールを使わずにはいられません。数ある編集ツールの中でも、Visual Studio Code (略して VSCode) は、オープンソースで軽量かつ強力なコード エディターとして開発者の間で非常に人気があります。では、VSCode は正確に何に使用されるのでしょうか?この記事では、VSCode の機能と使用法を詳しく説明し、読者に役立つ具体的なコード例を提供します。

See all articles