**4M** や **UnifiedIO** などの現在のマルチモーダルおよびマルチタスクの基本モデルは、有望な結果を示しています。ただし、さまざまな入力を受け入れ、さまざまなタスクを実行するすぐに使用できる能力は、トレーニング対象のモダリティとタスクの (通常は少数の) 数によって制限されます。
、これに基づいて、ローザンヌ工科大学 (EPFL) の研究者と Apple は共同で、数十の**幅広く**多様性のある**高度な** Any-to-Anyモーダル単一モデルを開発しました。さまざまなモダリティを利用し、大規模なマルチモーダル データセットとテキスト コーパスに対して共同トレーニングを実行します。
トレーニング プロセスの重要なステップは、画像のようなニューラル ネットワーク **特徴マップ**、ベクトル、インスタンス セグメンテーション、人間のポーズなどの構造化データであるかどうかにかかわらず、さまざまなモダリティに対して離散 **トークン化**を実行することです。テキストとして表現できるデータ。
論文アドレス: https://arxiv.org/pdf/2406.09406
論文ホームページ https://4m.epfl.ch/
論文タイトル: 4M-21: An Any数十のタスクとモダリティに対する任意のビジョン モデル
この研究は、単一モデルのトレーニングでも、既存のモデルの少なくとも**3倍**のタスク/**モダリティ**を完了できることを示しています。パフォーマンスが失われます。さらに、この研究では、よりきめ細かく、より制御可能なマルチモード データ生成機能も実現します。
この研究は、マルチモーダル マスクの事前トレーニング スキームに基づいて構築されており、数十の非常に多様なモダリティでトレーニングすることでモデルの機能を向上させます。この研究では、モダリティ固有の離散トークナイザーを使用してエンコードすることにより、異なるモダリティで単一の統合モデルをトレーニングできるようになります。
簡単に言うと、この研究はいくつかの主要な次元で既存のモデルの機能を拡張します:
モダリティ: 既存の最良の任意対任意モデルの 7 つのモダリティから 21 の異なるモダリティまで、クロスモーダル検索と制御可能な生成を可能にします。 、そしてすぐに使える強力なパフォーマンス。これは、パフォーマンスを損なうことなく、また従来のマルチタスク学習を行わずに、シングル ビジョン モデルが数十の異なるタスクを Any-to-Any 方式で解決できる初めてのことです。
多様性: 人間のポーズ、SAM インスタンス、メタデータなど、より構造化されたデータのサポートを追加します。
トークン化: グローバル画像埋め込み、人間のポーズ、セマンティック インスタンスなどのモダリティ固有の方法を使用して、さまざまなモダリティの個別のトークン化を研究します。
拡張: モデルサイズを 3B パラメーターに拡張し、データセットを 0.5B サンプルに拡張します。
共同トレーニング: 視覚と言語を同時に共同トレーニングします。
方法の紹介
この研究では、4M 事前トレーニング スキームを使用しています (この研究は EPFL と Apple からも提供され、昨年リリースされました)。これは、複数のユーザーに効果的に拡張できる一般的な方法であることが証明されています。 -モダリティ。
具体的には、この記事では、モデルとデータセットのサイズを拡大し、モデルのトレーニングに関与するモダリティの種類と数を増やし、複数のデータセットを共同でトレーニングすることで、アーキテクチャとマルチモーダルマスクトレーニングの目標を変更しません。モデルのパフォーマンスと適応性を向上させます。
モダリティは、以下の図に示すように、RGB、ジオメトリ、セマンティクス、エッジ、特徴マップ、メタデータ、テキストのカテゴリに分類されます。
トークン化
トークン化には主に、さまざまなモダリティやタスクをシーケンスまたは離散トークンに変換し、それによってそれらの表現空間を統一することが含まれます。図 3 に示すように、研究者はさまざまなトークン化方法を使用して、さまざまな特性を持つモードを離散化します。要約すると、この記事では、ViT トークナイザー、MLP トークナイザー、テキスト トークナイザーを含む 3 つのトークナイザーを使用します。
アーキテクチャの選択に関して、この記事では Transformer に基づく 4M エンコーダ/デコーダ アーキテクチャを採用し、新しいモダリティに適応するために追加のモーダル エンベディングを追加します。
実験結果
次に、論文は 4M-21 のマルチモーダル機能を実証します。
マルチモーダル生成
反復復号トークンに基づいて、4M-21 を使用してあらゆるトレーニング モダリティを予測できます。図 2 に示すように、この論文では、特定の入力モダリティから一貫した方法ですべてのモダリティを生成できます。
さらに、この研究では、他のモダリティのサブセットから任意のトレーニング モダリティを条件付きおよび無条件で生成できるため、図 4 に示すように、きめの細かいマルチモーダル生成を実行するためのいくつかの方法がサポートされています。たとえば、マルチモーダル編集を実行します。 。さらに、4M-21 は、T5-XXL 埋め込みと通常の字幕の両方でテキスト理解の向上を示し、幾何学的および意味論的に音声生成を可能にします (図 4、右上)。
マルチモーダル取得
図 5 に示すように、4M-21 は、他のモダリティをクエリとして使用して RGB 画像や他のモダリティを取得するなど、元の DINOv2 および ImageBind モデルでは不可能な取得機能を解放します。 。さらに、4M-21 は、右の画像に示すように、複数のモダリティを組み合わせてグローバル エンベディングを予測し、取得の制御を向上させることができます。
すぐに使える
4M-21 は、図 6 に示すように、箱から出してすぐにさまざまな一般的な視覚タスクを実行できます。
表 1 は、DIODE 表面法線と深さの推定、COCO セマンティックとインスタンスのセグメンテーション、3DPW 3D 人間の姿勢推定などを評価します。
転移実験
さらに、この記事では、B、L、XL の 3 つの異なるサイズのモデルもトレーニングしました。その後、エンコーダーはダウンストリーム タスクに転送され、シングル モダリティ (RGB) およびマルチ モダリティ (RGB + 深度) 設定で評価されます。すべての転送実験ではデコーダが破棄され、代わりにタスク固有のヘッドがトレーニングされます。結果を表 2 に示します。
最後に、この論文では、NYUv2 でマルチモーダル転送、Hypersim セマンティック セグメンテーション、ARKitScenes で 3D オブジェクト検出を実行します。表 3 に示すように、4M-21 はオプションの深度入力を最大限に活用し、ベースラインを大幅に改善します。
以上が完成度高すぎ! Apple、21のモードが可能な新しいビジュアルモデル4M-21を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。