大型モデルの分野におけるトランスフォーマーの地位は揺るぎません。ただし、モデルの規模が拡大し、シーケンスの長さが増加するにつれて、従来の Transformer アーキテクチャの限界が明らかになり始めます。幸いなことに、Mamba の出現により、この状況は急速に変わりつつあります。その卓越したパフォーマンスはすぐに AI コミュニティにセンセーションを巻き起こしました。 Mamba の出現は、大規模なモデルのトレーニングとシーケンス処理に大きな進歩をもたらしました。その利点は AI コミュニティに急速に広がり、将来の研究と応用に大きな期待をもたらしています。
先週の木曜日、Vision Mamba (Vim) の導入により、ビジュアル ベーシック モデルの次世代のバックボーンとなる大きな可能性が実証されました。わずか 1 日後、中国科学院、ファーウェイ、彭城研究所の研究者は、VMamba:グローバルな受容野と線形複雑性を備えた視覚的な Mamba モデルを提案しました。 この作品は、視覚的なマンバ モデル Swin の瞬間の到来を示します。
大規模な実験により、VMamba がさまざまな視覚的なタスクで適切にパフォーマンスを発揮することが証明されました。 下の図に示すように、VMamba-S は ImageNet-1K 上で 83.5% の精度を達成します。これは Vim-S より 3.2%、Swin-S より 0.5% 高くなります。
#メソッドの紹介
成功VMamba 鍵となるのは、もともと自然言語処理 (NLP) タスクを解決するために設計された S6 モデルの使用です。 ViT のアテンション メカニズムとは異なり、S6 モデルは、1D ベクトルの各要素を以前のスキャン情報と相互作用させることにより、二次複雑性を線形性に効果的に軽減します。この対話により、大規模なデータを処理する際の VMamba の効率が向上します。したがって、S6 モデルの導入は、VMamba の成功の強固な基盤を築きました。
ただし、視覚信号 (画像など) にはテキストシーケンスのような自然な秩序性がないため、S6 のデータ スキャン方法を単純に視覚信号に対して直接実行することはできません。この目的のために、研究者はクロススキャン スキャン機構を設計しました。 クロススキャン モジュール (CSM) は、4 方向のスキャン戦略、つまり、特徴マップの 4 つの隅から同時にスキャンする戦略を採用しています (上の図を参照)。
この戦略により、フィーチャ内の各要素が他のすべての場所からの情報をさまざまな方向に統合し、線形の計算の複雑さを増加させることなくグローバルな受容野を形成することが保証されます。
CSM に基づいて、著者は 2D 選択的スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は 3 つのステップで構成されます。
#scan Expand 2D フィーチャを 4 つの異なる方向 (左上、右下、左下、上) にフラット化する右) は 1D ベクトルです。
線形複雑さ のコストで
グローバル受容野を達成することを保証します。ImageNet 分類
COCO ターゲットの検出
ADE20K セマンティック セグメンテーション 分析実験 有効受容野 #入力スケール スケーリング
上の図 (a) VMamba は、さまざまな入力画像サイズの下で (微調整なしで) 最も安定したパフォーマンスを示すことが示されています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加するにつれて、VMamba のみがパフォーマンスの大幅な向上を示し (VMamba-S は 83.5% から 84.0% に)、入力画像サイズの性別の変化に対する堅牢性が強調されています。 #実験結果
VMamba-T は
これらの結果は、Vision Mamba (Vim) モデルよりもはるかに優れており、VMamba の可能性を完全に検証しています。
以上がビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。