ディープ ニューラル ネットワークは画像分類において強力な経験的パフォーマンスを持っていますが、そのようなモデルはしばしば「ブラック ボックス」とみなされ、最も批判されるのは「説明が難しい」という点です。
対照的に、スパース畳み込みモデルは、信号が畳み込みモデルで表現できることを前提とした、自然画像を分析するための強力なツールでもあります。は、畳み込み辞書内のいくつかの要素の線形結合として表現され、良好な 理論的解釈可能性 と 生物学的合理性 を備えています。
しかし、実際のアプリケーションでは、スパース畳み込みモデル 原理的には機能しますが、経験的に設計されたディープ ネットワークと比較すると、期待どおりのパフォーマンスは得られません。パフォーマンス上の利点。
最近、Ma Yi 教授の研究グループ は、NeurIPS 2022 で新しい論文を発表しました。この論文では、画像分類におけるスパース畳み込みモデルの適用と、経験的なデータ間の不一致をレビューしています。スパース畳み込みモデルのパフォーマンスと解釈可能性がうまく解決されました。
#紙のリンク: https://arxiv.org/pdf/2210.12945.pdf#コードリンク: https://github.com/Delay-Xili/SDNet
記事内で提案されていますマイクロ最適化層
は、 畳み込みスパース コーディング (CSC) を使用して、標準の 準畳み込み層を置き換えます。 結果は、従来のニューラル ネットワークと比較して、これらのモデルが CIFAR-10、CIFAR-100、ImageNet データセットに対して同様に強力な経験的パフォーマンスを示していることを示しています。
研究者らは、スパース モデリングの堅牢な回復特性を利用することで、スパース正則化とデータ再構築項の間の単純で適切なトレードオフだけで、これらのモデルが入力に対してより堅牢になることを示しています。汚職と テストにおける敵対的な混乱
。
Ma Yi 教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、その後カリフォルニア大学バークレー校で学びました。 、米国、1997年にEECSで修士号、数学の修士号、2000年にEECSで博士号を取得。
卒業後、イリノイ大学アーバナ・シャンペーン校で教鞭をとり、電気・コンピュータ工学科史上最年少の准教授になりました。
2009 年、マイクロソフト リサーチ アジアのビジュアル コンピューティング グループで上級研究員を務めました。 2014 年に上海理工大学情報科学技術学部にフルタイムで入学しました。
2018 年にカリフォルニア大学バークレー校および清華バークレー深セン研究所に入社。現在はカリフォルニア大学バークレー校の電気工学およびコンピューター サイエンス学科の教授を務めています。また、IEEE フェロー、ACM フェロー、および SIAM フェローでもあります
Ma Yi 教授の研究対象には、3D コンピュータ ビジョン、高次元データの低次元モデル、スケーラビリティの最適化、機械学習などがあります。最近の研究テーマには、大規模な 3D 幾何学的再構成、低次元モデルと深層ネットワーク間の相互作用と関係などが含まれます。
スパース畳み込み
深層畳み込みネットワーク (ConvNets) は画像分類の主流の方法となり、パフォーマンスにおいて他のモデルを上回っていますが、その内部コンポーネントの特定のデータの意味は、畳み込み、非線形関数、正規化についてはまだ説明されていません。スパース データ モデリングは、解釈可能な表現を学習する機能と強力な理論的保証 (破損したデータの処理など) アプリケーションによってサポートされ、多くの信号および画像処理で広く使用されてきましたが、その分類はImageNet などのデータセットのパフォーマンスは、経験的なディープ モデルほど優れていません。
強力なパフォーマンスを備えたスパース モデルにも依然として欠陥があります:
1) ネットワーク構造を特別に設計する必要があるため、モデルの適用可能性が制限されます。
2) トレーニングの計算速度は数桁遅くなります;
3) 解釈可能性と堅牢性において明らかな利点は見られません。
研究者らはこの論文で視覚認識フレームワークを提案し、レイヤー入力がすべてのデータポイントで表現できると仮定して、単純な設計を通じてスパースモデリングをディープラーニングと組み合わせることができることを実証しました。共有辞書内の複数のアトムによって表現され、階層的な解釈可能性と安定性が向上しながら、標準的な ConvNet と同じパフォーマンスを実現します。
このメソッドは、スパース モデリングを暗黙的層にカプセル化し、それを標準 ConvNet の畳み込み層の代わりとして使用します。
従来の全結合層または畳み込み層で使用される陽的関数と比較して、隠れ層は陰的関数を使用します。この論文の隠れ層は、層の入力パラメータと重みパラメータの最適化問題に基づいて定義され、隠れ層の出力は最適化問題の解になります。
多次元入力信号が与えられた場合、レイヤーの関数は、より適切なスパース出力への逆マッピングを実行するように定義できます。出力チャネルの数は入力とは異なる場合があるため、上記は、Lasso 型の最適化問題に対する最適なスパース解を見つけることができます。
隠れ層は畳み込みスパースコーディング (CSC) モデルを実装しており、入力信号は畳み込み内のアトムのスパース線形結合によって近似されます。辞書 。この畳み込み辞書は、バックプロパゲーションを通じてトレーニングされる CSC 層のパラメーターとみなすことができます。
CSC モデルの目標は、A(z) 演算子を通じて入力信号を再構築することです。ここで、特徴マップ z は畳み込みフィルターを指定します。 A の位置と値。モデリングの違いを許容するために、再構成が正確である必要はありません。
決定された CSC 層の入出力マッピングに基づいて、関連する最適化を解決し、入力 x とパラメーターに対する最適な係数解を導出することで、順伝播を実行できます。 A の勾配はバックプロパゲーションを実行するために使用されます。
CSC 層を備えたネットワーク全体は、クロスエントロピー損失を最小限に抑えることで、ラベル付きデータからエンドツーエンドの方法でトレーニングできます。
#実験結果
分類性能の比較
実験で使用したデータ セットは CIFAR-10 と CIFAR-100 です。各データ セットには 50,000 個のトレーニング画像と 10,000 個のテスト画像が含まれています。各画像のサイズは 32 × 32 です、RGBチャンネル。研究者らは、この手法を標準ネットワーク アーキテクチャである ResNet-18 および ResNet-34 と比較することに加えて、隠れ層アーキテクチャを備えた MDEQ モデルおよびスパース アーキテクチャを備えた SCN とも比較しました。アーキテクチャのモデリング、比較。
実験結果は、同様のモデルスケールの下では、SDNet-18/34 のトップ 1 精度が SDNet-18/34 のトップ 1 精度と同じであることがわかります。 ResNet-18/34 は同等以上の推論速度を備えています。この結果は、SDNet モデルには破損したイメージの処理において追加の利点があるため、このネットワークが既存のデータ駆動型モデルの強力な代替手段としての可能性を示しています。
SDNet-18 モデルを同様のモデル サイズの MDEQ モデルと比較すると、SDNet-18 は MDEQ よりも正確であるだけでなく、はるかに高速 (7 倍以上) であることがわかります。 MDEQ は SDNet のように破損したデータを処理できないことに注意してください。 スパース モデリングも使用する SCN ネットワークは、トップ 1 の精度を達成していますが、SCN の重要な欠点は、トレーニング速度が非常に遅いことです。畳み込みスパースコーディングモデルでは、順伝播ごとにさらにスパースコーディングの問題を解決する必要があり、並列計算の恩恵を受けることができません。 ロバスト推論による入力摂動の処理 研究者らは、入力摂動に対するメソッドのロバスト性をテストするために、以下を使用しました。 CIFAR-10-C データセット。さまざまなタイプの合成ノイズとさまざまな重大度によってデータが破損します。 モデルの CSC 層は入力信号と再構成された信号の間のエントリごとの差にペナルティを与えるため、理論的には SDNet が加法性ノイズの処理により適しているはずです。 したがって、実験部分では主に CIFAR-10-C の 4 種類の加法性ノイズ、つまりガウス ノイズ、ショット ノイズ、スペックル ノイズに焦点を当てます。インパルス ノイズを測定し、SDNet-18 の精度を評価し、そのパフォーマンスを ResNet-18 と比較します。 さまざまな種類のノイズとさまざまな重大度 (レベル 0、1、2 のインパルス ノイズを除く) に対して、適切なノイズを選択することがわかります。トレーニング中に使用されたラムダ値とは異なるラムダ値は、テストのパフォーマンスを向上させるのに役立ちます。 具体的には、λ の関数としての精度曲線は単峰性の形状を示し、パフォーマンスは最初に増加し、その後減少します。さらに、各データ破損タイプにおいて、パフォーマンスのピークに達する λ 値は破損の重大度に応じて単調増加しており、これは予想と一致する観察結果です。 敵対的摂動への対処 研究者らは SDNet で PGD を使用しました (λ =0.1) 敵対的摂動を生成します。摂動の L∞ パラダイムは 8/255、摂動の L2 パラダイムは 0.5 です。 ResNet-18 と比較すると、λ=0.1 の場合、SDNet のパフォーマンスはそれほど高くないことがわかります。 ResNet よりも優れていますが、パラメータ λ を調整することでロバスト性の精度を大幅に向上させることができます。
以上が「スパースコーディング」は理論から実践へ! Ma Yi 教授の NeurIPS 2022 での新しい研究: スパース畳み込みのパフォーマンスと堅牢性は ResNet を超えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。