CNN、Transformer、Uniformer に加えて、より効率的なビデオ理解テクノロジーがついに登場しました-AI-php.cn

ビデオ理解の中心的な目標は、時空間表現を正確に理解することですが、2 つの主な課題に直面しています。それは、短いビデオクリップには大量の時空間的冗長性があり、もう 1 つは複雑な時空間依存関係です。 3 次元畳み込みニューラルネットワーク (CNN) とビデオトランスフォーマーは、これらの課題の 1 つを解決するのにうまく機能していますが、両方の課題に同時に対処するにはいくつかの欠点があります。 UniFormer は両方のアプローチの利点を組み合わせようとしますが、長いビデオをモデリングする際に困難に直面します。

自然言語処理の分野における S4、RWKV、RetNet などの低コストソリューションの出現により、ビジュアルモデルに新たな道が開かれました。 Mamba は、長期的な動的モデリングを容易にしながら、線形の複雑さを維持するバランスを実現する選択的状態空間モデル (SSM) で際立っています。このイノベーションは、多方向 SSM を利用して 2D 画像処理を強化する Vision Mamba と VMamba で実証されているように、ビジョンタスクでのアプリケーションを推進します。これらのモデルは、メモリ使用量を大幅に削減しながら、パフォーマンスにおいてはアテンションベースのアーキテクチャと同等です。

ビデオによって生成されるシーケンスが本質的に長いことを考えると、当然の疑問は、「Mamba はビデオの理解にうまく機能するのか?」ということです。

この記事は、Mamba からインスピレーションを得て、特にビデオの理解に特化した SSM (選択的状態空間モデル) である VideoMamba を紹介します。 VideoMamba は Vanilla ViT の設計哲学を利用しており、畳み込みとアテンションのメカニズムを組み合わせています。これは、動的な時空間背景モデリングのための線形複雑度手法を提供し、特に高解像度の長いビデオの処理に適しています。評価は主に、VideoMamba の 4 つの主要な機能に焦点を当てています:

視覚分野のスケーラビリティ: この記事では、VideoMamba のスケーラビリティを評価します。がテストされた結果、純粋な Mamba モデルは拡張し続けるとオーバーフィットする傾向があることがわかりました。この論文では、モデルと入力サイズが増加しても VideoMamba を使用できるように、シンプルで効果的な自己蒸留戦略を紹介しています。大規模なデータセット事前トレーニングなしで大幅なパフォーマンスの向上を実現します。

短期アクション認識に対する感度: この論文の分析は、短期アクションを正確に区別する VideoMamba の能力を評価するために拡張されています。、特に開閉など、動作に微妙な違いがあるアクションを含むもの。研究結果によると、VideoMamba は既存の注意ベースのモデルよりも優れたパフォーマンスを示します。さらに重要なことは、マスクモデリングにも適しており、時間的感度がさらに向上していることです。

長いビデオの理解における優れた点: この記事では、VideoMamba の長いビデオを解釈する能力を評価します。エンドツーエンドのトレーニングでは、従来の機能ベースの方法に比べて大きな利点が実証されます。特に、VideoMamba は 64 フレームビデオ上で TimeSformer よりも 6 倍高速に動作し、必要な GPU メモリの量は 40 分の 1 です (図 1 を参照)。