複数のベンチマーク テストで業界最高のゼロショット パフォーマンスを更新しました。
さまざまなモーダル入力コンテンツ (テキスト、画像、ビデオ、オーディオ、IMU モーション センサー データ) を理解し、テキスト応答を生成できる統合モデル。このテクノロジーは、Llama 2 に基づいています。メタ。
昨日、マルチモーダル大規模モデル AnyMAL に関する研究が AI 研究コミュニティの注目を集めました。
大規模言語モデル (LLM) は、その巨大なサイズと複雑さで知られており、人間の言語を理解して表現する機械の能力を大幅に強化します。 LLM の進歩により、画像エンコーダと LLM の推論機能を組み合わせて、画像エンコーダと LLM の間のギャップを埋め、視覚言語の分野で大幅な進歩が可能になりました。これまでのマルチモーダル LLM 研究は、テキストと画像モデルなど、テキストと別のモダリティを組み合わせるモデル、またはオープンソースではない独自の言語モデルに焦点を当てていました。
マルチモーダル機能を実現し、LLM にさまざまなモダリティを組み込むためのより良い方法があれば、それは私たちに異なるエクスペリエンスをもたらすでしょうか?
##Q 出力例
この問題について、META の研究者は最近 Anymal (Any-モダリティ拡張言語モデル)。これは、画像、ビデオ、オーディオ、IMU モーション センサー データなど、さまざまなモダリティからのデータを LLM のテキスト埋め込みスペースに変換するようにトレーニングされたマルチモーダル エンコーダーのコレクションです
#論文アドレス: https://huggingface.co/papers/2309.16058説明によると、この研究の主な貢献は次のとおりです:
ペアになったマルチモーダル データ (特定のモーダル信号とテキストを含む) を使用して、図 2 に示すように、この研究では、マルチモーダルな理解機能を達成するために LLM を事前トレーニングしました。具体的には、入力信号を特定の LLM のテキスト トークン埋め込み空間に投影する各モダリティの軽量アダプターをトレーニングします。このようにして、LLM のテキスト タグ埋め込み空間は、タグがテキストまたはその他のモダリティを表現できる共同タグ埋め込み空間になります。クリーンなサブセットは CAT メソッドを使用してフィルタリングされ、検出可能な顔をぼかしました。オーディオ アライメントの研究には、AudioSet (2.1M)、AudioCaps (46K)、および CLOTHO (5K) データ セットが使用されました。さらに、IMU とテキスト配置に Ego4D データセットも使用しました (528K)
大規模なデータセットの場合、事前トレーニングを 70B パラメーター モデルにスケールアップするには多くのリソースが必要となり、多くの場合 FSDP ラッパーの使用が必要になります。 on multiple 複数の GPU でモデルをスライスします。トレーニングを効果的にスケールするために、マルチモーダル設定で量子化戦略 (4 ビットおよび 8 ビット) を実装します。この設定では、モデルの LLM 部分がフリーズされ、モーダル トークナイザーのみがトレーニング可能になります。このアプローチにより、メモリ要件が 1 桁減少します。したがって、70B AnyMAL は、バッチ サイズ 4 の単一の 80GB VRAM GPU でトレーニングを完了できます。 FSDP と比較すると、この記事で提案する量子化方法は GPU リソースの半分しか使用しませんが、同じスループットを実現します マルチモーダル命令データ セットを微調整に使用するということは、マルチモーダル命令データ セットを微調整に使用することを意味します。さらに、さまざまな入力モダリティの命令に従うモデルの能力を向上させるために、研究では追加の微調整にマルチモーダル命令チューニング (MM-IT) データセットを使用しました。具体的には、応答ターゲットがテキスト命令とモーダル入力の両方に基づくように、入力を [] として連結します。研究は、(1) LLM パラメータを変更せずに投影層をトレーニングする、または (2) 低レベルの適応 (Low-Rank Adaptation) を使用して LM の動作をさらに調整する 2 つの状況について行われます。この研究では、手動で収集された命令調整されたデータセットと合成データの両方が使用されます。 実験と結果 画像タイトル生成は、画像に対応するタイトルを自動的に生成するために使用される人工知能テクノロジーです。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。タイトルを自動生成することで、画像のわかりやすさや検索エンジンの精度が向上し、より良い画像検索や閲覧体験をユーザーに提供することができます。タスク (MM-IT-Cap)。見てわかるように、AnyMAL バリアントは両方のデータセットでベースラインよりも大幅に優れたパフォーマンスを示しています。特に、AnyMAL-13B バリアントと AnyMAL-70B バリアントの間にパフォーマンスに大きな差はありません。この結果は、画像キャプション生成の基礎となる LLM 機能が、画像に対応するキャプションを自動的に生成するために使用される人工知能技術であることを示しています。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。キャプションの生成を自動化することで、画像の理解しやすさと検索エンジンの精度が向上し、ユーザーにより良い画像検索と閲覧エクスペリエンスが提供されます。このタスクの影響はそれほど大きくありませんが、データ サイズと登録方法に大きく依存します。
必要な書き直しは次のとおりです: マルチモーダル推論タスクに対する人間による評価 図 3 は、ベースライン ( LLaVA: 勝率 34.4%、MiniGPT4: 勝率 27.0%) と比較すると、AnyMAL は強力なパフォーマンスを示し、実際の手動でラベル付けされたサンプル (勝率 41.1%) との差が小さくなっています。特に、完全な命令セットで微調整されたモデルは最高の優先順位の勝率を示し、人間による注釈付きの応答に匹敵する視覚的な理解と推論能力を示しました。 BLIP-2 と InstructBLIP は、公開 VQA ベンチマークでは良好なパフォーマンスを示しますが (表 4 を参照)、これらのオープン クエリではパフォーマンスが低いことにも注目してください (優先勝率はそれぞれ 4.1% と 16.7%)。
#VQA ベンチマーク 表 4 に、Hateful Meme データセット VQAv2 のパフォーマンスを示します。 、TextVQA、ScienceQA、VizWiz、OKVQA を比較し、文献で報告されているそれぞれのベンチマークのゼロショット結果と比較しました。私たちの研究は、推論時のオープン クエリでのモデルのパフォーマンスを最も正確に推定するためのゼロショット評価に焦点を当てています。 ビデオ QA ベンチマーク
表 6 に示すように、この研究では 3 つの困難なビデオ QA ベンチマークでモデルを評価しました。 #オーディオ字幕の再生成
興味深いことに、AnyMAL 論文提出の方法、種類、タイミングに基づいて、Meta は新しく発売された複合現実/メタバース ヘッドセットを通じてマルチモーダル データを収集することを計画しているようです。これらの研究結果は、Meta の Metaverse 製品ラインに統合されるか、すぐに消費者向けアプリケーションで使用される可能性があります。 詳細については、元の記事をお読みください。
以上がマルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。