数十年にわたる基礎研究を経て、視覚認識の分野は大規模な視覚表現学習の新時代を迎えました。事前トレーニングされた大規模ビジョン モデルは、特徴学習およびビジョン アプリケーションにとって不可欠なツールとなっています。視覚表現学習システムのパフォーマンスは、モデルのニューラル ネットワーク アーキテクチャ、ネットワークのトレーニングに使用される方法、トレーニング データという 3 つの主な要素によって大きく影響されます。各要素の改善は、モデル全体のパフォーマンスの向上に貢献します。
ニューラル ネットワーク アーキテクチャ設計の革新は、表現学習の分野で常に重要な役割を果たしてきました。畳み込みニューラル ネットワーク アーキテクチャ (ConvNet) は、コンピューター ビジョンの研究に大きな影響を与え、手動で実装された特徴量エンジニアリングに依存せずに、さまざまな視覚認識タスクで汎用的な特徴量学習手法を使用できるようにしました。もともと自然言語処理のために開発されたトランスフォーマー アーキテクチャは、近年、さまざまなサイズのモデルやデータセットに適しているため、他の深層学習分野でも広く使用されるようになりました。
ConvNeXt アーキテクチャの出現により、従来の ConvNet が最新化され、純粋な畳み込みモデルがモデルやデータセット サイズの変化にも適応できることが証明されました。ただし、ニューラル ネットワーク アーキテクチャの設計空間を探索する最も一般的な方法は、依然として ImageNet で教師あり学習のパフォーマンスをベンチマークすることです。
別の考え方は、視覚表現学習の焦点をラベル付き教師あり学習から自己教師あり事前トレーニングに移すことです。自己教師ありアルゴリズムは、マスクされた言語モデリングを視覚領域に導入し、すぐに視覚表現学習の一般的な方法になりました。ただし、自己教師あり学習では通常、教師あり学習用に設計されたアーキテクチャが使用され、そのアーキテクチャが固定されていることが前提となります。たとえば、Masked Autoencoder (MAE) はビジュアル トランスフォーマー アーキテクチャを使用します。
これらのアーキテクチャを自己教師あり学習フレームワークと組み合わせることが 1 つのアプローチですが、これにはいくつかの特有の問題が発生します。たとえば、ConvNeXt と MAE を組み合わせると、次の問題が発生します。MAE には、トランスフォーマーのシーケンス処理能力に最適化された特定のエンコーダー/デコーダー設計があり、これにより、計算集約型のエンコーダーが目に見えるパッチに集中するため、事前トレーニングが削減されます。費用がかかります。ただし、この設計は、高密度のスライディング ウィンドウを使用する標準の ConvNet と互換性がない可能性があります。さらに、アーキテクチャとトレーニング目標の関係を考慮しなければ、最適なパフォーマンスを達成できるかどうかは不明確です。実際、既存の研究では、マスクベースの自己教師あり学習で ConvNet をトレーニングするのは難しいことが示されており、実験証拠では、Transformer と ConvNet が特徴学習において分岐する可能性があり、それが最終的な表現の品質に影響を与える可能性があることが示されています。
この目的を達成するために、KAIST、Meta、およびニューヨーク大学の研究者 (ConvNeXt の最初の著者である Liu Zhuang と ResNeXt の最初の著者である Xie Saining を含む) が共同でネットワークを設計することを提案しました。同じフレームワークの下でのアーキテクチャとマスクされた自動エンコーディング。この目的は、マスクベースの自己教師あり学習を ConvNeXt モデルに適用して、トランスフォーマーと同等の結果を取得できるようにすることです。
論文アドレス: https://arxiv.org/pdf/2301.00808v1.pdf
マスクされたオートエンコーダを設計する際、この研究ではマスク付きの入力をスパースパッチのセットとして扱い、スパースコンボリューションを使用して目に見える部分を処理します。このアイデアは、大規模な 3D 点群を処理する際のスパース コンボリューションの使用からインスピレーションを受けました。具体的には、この研究では、スパース畳み込みを使用して ConvNeXt を実装し、微調整中に特別な処理を行わずに重みを標準の高密度ネットワーク層に変換して戻すことを提案しています。事前トレーニングの効率をさらに向上させるために、この研究ではトランス デコーダーを単一の ConvNeXt に置き換え、設計全体を完全に畳み込み型にしました。研究者らは、これらの変更を加えた後、学習された特徴は役に立ち、ベースライン結果を改善しましたが、微調整されたパフォーマンスは依然としてトランスベースのモデルよりも劣っていることを観察しました。
次に、この研究では、さまざまなトレーニング構成を使用して ConvNeXt の特徴空間を分析します。マスクされた入力に対して ConvNeXt を直接トレーニングしたとき、研究者は MLP 層で潜在的な特徴崩壊の問題を発見しました。この問題を解決するために、この研究では、グローバル応答正規化層 (Global Response Normalization Layer) を追加して、チャネル間の機能競合を強化することを提案します。この改善は、マスクされたオートエンコーダーを使用してモデルが事前トレーニングされている場合に最も効果的であり、教師あり学習からの固定アーキテクチャ設計を再利用することが最良のアプローチではない可能性があることを示唆しています。
上記の改善に基づいて、この研究では ConvNeXt V2 を提案します。ConvNeXt V2 は、マスクされたオートエンコーダーと組み合わせた場合に優れたパフォーマンスを示します。同時に、研究者らは、ConvNeXt V2 は、ImageNet での分類タスク、COCO でのターゲット検出、ADE20K でのセマンティック セグメンテーションなど、さまざまな下流タスクにおいて、純粋な ConvNet に比べてパフォーマンスが大幅に向上していることを発見しました。
完全畳み込みマスク オートエンコーダ
この研究で提案された方法は概念的に単純であり、完全畳み込み方式で実装されています。学習信号は、元の視覚入力を高いマスク率でランダムにマスクし、残りのコンテキストに基づいて欠落部分をモデルに予測させることによって生成されます。全体的な枠組みを下図に示します。
このフレームワークは、スパース畳み込みに基づく ConvNeXt エンコーダと軽量の ConvNeXt デコーダで構成されており、オートエンコーダの構造は非対称です。エンコーダーは可視ピクセルのみを処理しますが、デコーダーはエンコードされたピクセルとマスク トークンを使用して画像を再構築します。同時に、損失はマスクされた領域でのみ計算されます。
全体的な反応の正規化
脳には、ニューロンの多様性を促進する多くのメカニズムが存在します。たとえば、側方抑制は、活性化ニューロンの応答を強化するのに役立ち、刺激に対する個々のニューロンのコントラストと選択性を高めると同時に、ニューロンの集団全体の応答の多様性も高めます。深層学習では、この形式の側方抑制は、応答の正規化によって実現できます。この研究では、グローバル応答正規化 (GRN) と呼ばれる新しい応答正規化レイヤーを導入しています。これは、チャネル間のコントラストと選択性を高めることを目的としています。 GRN ユニットは、1) グローバル特徴集約、2) 特徴正規化、3) 特徴キャリブレーションの 3 つのステップで構成されます。以下の図に示すように、GRN レイヤーを元の ConvNeXt ブロックにマージできます。
研究者らは実験に基づいて、GRN を適用する場合、LayerScale は必要なく、削除できることを発見しました。この新しいブロック設計を活用して、研究では、軽量 (Atto) から計算集約型 (Huge) まで、ConvNeXt V2 モデル ファミリと呼ばれる、さまざまな効率と容量を持つさまざまなモデルを作成しました。
GRN の役割を評価するために、この研究では FCMAE フレームワークを使用して ConvNeXt V2 を事前トレーニングしました。以下の図 3 の視覚的な表示と図 4 のコサイン距離分析から、ConvNeXt V2 が機能崩壊の問題を効果的に軽減していることがわかります。コサイン距離の値は一貫して高く、ネットワーク層の転送中に機能の多様性を維持できることを示しています。これは、MAE を使用して事前トレーニングされた ViT モデルに似ています。これは、ConvNeXt V2 の学習動作が、同様のマスク画像事前トレーニング フレームワークの下での ViT と同様であることを示しています。
調査では、微調整パフォーマンスをさらに評価しました。結果を以下の表に示します。
GRN を装備すると、FCMAE 事前トレーニング モデルは、300 エポックを使用してトレーニングされた教師ありモデルよりも大幅に優れたパフォーマンスを発揮できます。 GRN は、特徴の多様性を強化することで表現品質を向上させます。これはマスクベースの事前トレーニングにとって重要ですが、ConvNeXt V1 モデルにはありません。この改善は、パラメーターのオーバーヘッドを追加したり、FLOPS を増加させたりすることなく達成されることに注目してください。
最後に、この研究では、事前トレーニングと微調整における GRN の重要性についても調査しています。以下の表 2(f) に示すように、GRN が微調整から削除されるか、新しく初期化された GRN が微調整中に追加されるかにかかわらず、パフォーマンスは大幅に低下します。これは、GRN が事前トレーニングと微調整の両方で重要であることを示しています。
興味のある読者は、論文の原文を読んで研究の詳細を学ぶことができます。
以上がConvNeXt V2 は、最も単純な畳み込みアーキテクチャのみを使用し、Transformer に劣らないパフォーマンスを実現します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。