動物に目があるのと同じように、Yann LeCun チームの Cambrian-1 により、AI は強力な視覚表現学習機能を獲得できるようになります。
時代を通じて、多くの哲学者がこの問いを探求してきました。言語の意味の理解は感覚に基づく必要があるのでしょうか?哲学者たちは同意しませんが、1 つ明らかなことは、確実で効果的な感覚のグラウンディングが少なくとも役立つということです。
例えば、科学者は一般に、カンブリア紀の爆発における視覚の出現は、初期の動物の進化における重要なステップであったと考えています。これは、動物が食物を見つけて捕食者を避けるのに役立つだけでなく、動物自体の進化にも役立ちました。実際、人間 (およびほぼすべての動物) のほとんどの知識は、視覚、聴覚、触覚、味覚、嗅覚など、物理的なものと相互作用する感覚経験を通じて獲得されます。これらの感覚経験は、私たちの周囲の世界を理解するための基礎であり、行動を起こし、意思決定を行うのに役立つ鍵となります。
これらのアイデアは、哲学的な概念を探求するために使用できるだけでなく、実用的な価値も持っています。特に、マルチモーダル大規模言語モデル (MLLM) の開発は、視覚表現の学習と言語理解を実用的な応用の中核に据えています。言語モデルは非常に強力なスケーリング動作を示し、マルチモーダル学習における最近の進歩は主に、より大きく優れた LLM の恩恵を受けています。
その一方で、視覚コンポーネントのデザインの選択はまだ十分に検討されておらず、この分野の検討は視覚表現学習の研究とは多少切り離されています。これは主に、この分野の研究が非常に難しいためです。MLLM には複雑なトレーニングと評価のプロセスが含まれており、考慮すべき設計の選択肢が多数あります。
最近、ニューヨーク大学の Xie Saining と Yann LeCun のチームは、このギャップを埋めるためにビジョンを中心に MLLM を探索し、これらの探索結果に基づいて Cambrian-1 (Cambrian 1) シリーズのモデルも構築しました。 (この記事には、Shengbang Tong、Ellis Brown、Penghao Wu の 3 人の共著者がいます。)
論文タイトル: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
論文アドレス: https://arxiv.org/pdf/2406.16860
ウェブサイト: https://cambrian-mllm.github.io
コード: https://github.com/cambrian-mllm/ cambrian
モデル: https://huggingface.co/nyu-visionx/
データ: https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-ベンチ: https:/ /huggingface.co/datasets/nyu-visionx/CV-Bench
評価: https://github.com/cambrian-mllm/cambrian
具体的には、MLLM 命令を微調整します。図 1 に示すように、表現評価プロトコルが作成されました。
チームは次のように述べています。「私たちの研究の動機は、現在のマルチモーダル学習研究における 2 つの潜在的な問題に起因しています。1) 効果的な視覚学習の欠点を補う近道である言語への過剰かつ時期尚早な依存。表現; 2) 既存のベンチマークは、現実世界のシナリオに対する十分な指針を提供しない可能性があります - 視覚的な根拠は、マルチモーダルを確実に理解するために重要です。 MLLM をいくつかの困難な現実世界のアプリケーションに適用する際のボトルネックになっています。
別の視点から見ると、従来の視覚表現学習評価プロトコルは飽和しており、現実世界の分布に見られるさまざまな知覚上の課題を反映できていません。一方、ビジュアル質問応答 (VQA) 形式の言語を使用すると、柔軟で堅牢な評価プロトコルが提供されます。
Xie Saining と Yann LeCun のチームによるこの研究の目標は、この新しいプロトコル設計を調査し、将来の視覚表現の開発を導くための新しい洞察を得ることです。さらに、この包括的な設定で視覚表現をより適切に評価するために、従来の視覚ベンチマークを VQA 形式に変換することにより、視覚中心の MLLM ベンチマーク CV-Bench も開発しました。
Cambrian-1 は 5 つの重要な柱に基づいて構築されており、それぞれが MLLM の設計に重要な洞察を提供します。
指導の微調整レシピ: 指導の微調整のための戦略と実践的な手段について説明します。
ベンチマーク評価: 彼らは既存の MLLM ベンチマークを分析し、直感的に 4 つのグループに分類し、視覚中心の新しいベンチマーク CV-Bench を提案しました。
これらの柱に基づいて、チームは Cambrian-1 シリーズのモデルを構築しました。これは、複数のベンチマークで優れており、視覚中心のタスクに特に優れています。チームはまた、研究のモデルの重み、オープンソース コード、データセット、モデルのトレーニングと評価の詳細な計画も公開しました。
マルチモーダル LLM の基礎
MLLM 研究の主要なコンポーネントには、大規模な言語モデル、ビジュアル エンコーダー、マルチモーダル コネクタ、データ アセンブリ プロセス、命令の微調整戦略、評価とベンチマークが含まれます。具体的な手順と関連研究については、元の論文を参照してください。
MLLM によるビジュアル表現の評価
MLLM で現在使用されているビジュアル エンコーダは主に CLIP です。これは、言語と事前に調整されており、LLM トークン空間に簡単に適応できるためです。ただし、強力な言語事前分布は諸刃の剣になる可能性があります。効果的な視覚表現の学習における欠点を補うことも、視覚表現の学習に関する広範な研究から得られる洞察を削減することもできます。
チームは、MLLM のマルチモーダル機能に対するさまざまなビジュアル エンコーダーの選択 (図 2 を参照) の影響を体系的に評価しました。
彼らはまた、現実世界のシナリオにおける多様な知覚上の課題をより忠実に反映するための視覚表現方法を評価するための堅牢なフレームワークとして MLLM 評価を使用することを提唱し、それによって人々がより良い視覚表現を開発するようにより適切に導くことができます。以下に研究の過程と成果を簡単に紹介します。詳細については原論文を参照してください。
分析ベンチマーク
23 の異なるビジュアル バックボーン ネットワークに基づいて、チームは 2 段階の命令微調整プロセスを使用して MLLM をトレーニングしました。まず、ShareGPT-4V の 1.2M アダプター データに基づいてコネクタをトレーニングし、次に微調整します。 737K 命令のチューニング データ上でコネクタと LLM を同時に微調整します。
視覚入力の有無にかかわらずモデルのパフォーマンスを比較することにより (図 3 を参照)、チームは次の発見を行いました:
発見 1: ほとんどのベンチマークは視覚中心の機能を正確に測定できず、少数のベンチマークしかありませんこれらの機能を測定できるベンチマークは非常に少数です。
カンブリア紀の視覚中心のベンチマーク (CV-Bench)
既存の視覚中心のベンチマークの制限に対処するために、チームは CV-Bench を提案しました。これには人間が検査した 2,638 個のサンプルが含まれており、これは他の視覚中心の MLLM ベンチマークよりもはるかに多く、RealWorldQA の 3.5 倍、MMVP の 8.8 倍です。
図 4 と表 1 に示すように、CV-Bench は空間関係とターゲット数を通じて 2D 理解能力を評価し、深さの順序と相対距離を通じて 3D 理解能力を評価できます。
調査結果 2: 既存のビジョン ベンチマークを VQA タスクに効果的に適合させることができ、ビジョン中心の MLLM 機能の評価が可能になります。
命令微調整スキーム
MLLMは、LLMとビジュアルバックボーンネットワークの事前トレーニングから始まり、次にプロジェクター(MLP)などのコネクタを介してこれらのモジュールを接続します。チームは広範な実験を通じてさまざまな命令の微調整スキームを調査し、次の発見を行いました。
シングルステージトレーニングとデュアルステージトレーニングの選択に関して、チームは次のことを発見しました:
発見 3: デュアルステージトレーニングは有益であり、より多くのアダプターデータを使用すると結果がさらに向上します。
ビジュアル エンコーダーをフリーズするかどうかに関して、チームは次のことを発見しました:
発見 4: ビジュアル エンコーダーをフリーズしないことには多くの利点があります。言語教師ありモデルは常に有益であり、SSL モデルはビジョン中心のベンチマークで特に有益です。
視覚表現評価器としての MLLM の使用
チームは、視覚表現を評価するための MLLM の使用を研究しました。結果を図 6 に示します。結果は次のとおりです。
結果 5: 高解像度エンコーダは、グラフまたはビジョン中心のベンチマークでパフォーマンスを大幅に向上させることができ、畳み込みネットワークベースのアーキテクチャはそのようなタスクに最適です。
彼らは、自己教師ありモデルに基づく MLLM の継続的な微調整が言語教師ありモデルと同様のパフォーマンスを達成できるかどうかも研究しました。その結果を図 7 に示します。
調査結果 6: 言語監視には大きな利点がありますが、十分なデータと適切な微調整があれば、SSL メソッドを通じてパフォーマンスのギャップを削減できます。
複数のビジュアル エンコーダーを組み合わせる
チームは、複数のビジュアル エンコーダーを組み合わせてより強力な MLLM を構築する可能性も調査しました。その結果を表 3 に示します。
調査結果 7: 複数のビジュアル エンコーダー (ビジュアル SSL モデルを含む) を組み合わせると、特にビジョン中心のタスクの場合、さまざまなベンチマークで MLLM のパフォーマンスが向上します。
Spatial Vision Aggregator (SVA): 新しい設計のコネクタ
複数の視覚エンコーダーからの特徴を効果的に集約し、補間による情報損失を防ぐために、複数の視覚特徴と対話できる学習可能な暗黙的なクエリのセットを使用しました。相互注目層を通じて。
具体的には、新しいアプローチでは、次の 2 つの新しいビジョン中心の設計原則が統合されています。
クエリ内の各トークンの集約空間を明示的に定義することにより、空間誘導バイアスを導入します。
LLM レイヤー全体でビジュアル特徴を複数回集約することで、モデルが必要なビジュアル情報に繰り返しアクセスして統合できるようになります。
この新しい構築方法は、LLM との集約および統合中にビジュアル データの空間構造を維持しながら、異なる特徴解像度を持つ複数のビジュアル エンコーダーに柔軟に適応できます。
前のセクションの最高のビジョン モデルと Vicuna-1.5-7B ベース LLM の組み合わせを使用して、チームは SVA モジュールの有用性を実証しました。
表 4 は、SVA がすべてのベンチマーク カテゴリで 2 つの対照的な手法を上回っており、OCR と表形式のカテゴリ (高解像度の機能の理解が必要) が大幅に向上していることを示しています。
さらに一歩進んで、OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 の組み合わせに基づいてアブレーション実験を実施しました。結果を表 5 に示します。
発見 8: 空間誘導バイアスと LLM と視覚特徴間の深い相互作用は、視覚特徴をより適切に集約して凝縮するのに役立ちます。
MLLM をトレーニングするための命令微調整データ
データ収集
既存のデータ ソースから命令微調整データを収集します:
チームは、マルチモーダル ベンチマークと、視覚的インタラクション データを含むデータセットの両方を使用しました (たとえば、 、ビジュアル質問応答 (VQA) および OCR データ)、少量の高品質の純粋な言語指導コンプライアンス データも収集されています。また、データを一般会話、OCR、計数、コーディング、数学、科学、純粋言語データなどのさまざまなカテゴリに分類しました。図 9 にデータ ソースを示します。
対象を絞ったインターネット データ収集エンジン: 図 9 に示すように、データの分布は不均衡です。
大規模で信頼性の高い、高品質の知識ベースの指導微調整データを作成するために、チームはデータ エンジンを提案しました。このエンジンは、ターゲット ドメインとサブドメイン (物理学など) を選択し、GPT-4 などの LLM を使用してトピック (ニュートンの法則など) を識別できます。次に、トピックごとに Wikipedia などの信頼できる情報ソースを検索します。研究チームは、Wikipedia から抽出した画像とテキストのペアが高品質であることを発見しました。
その後、チームはパーサーを使用して画像説明タプルを抽出し、注意深く設計されたプロンプトを通じて GPT-3.5 などの LLM に説明テキストを供給し、コマンド タイプの質問と回答のペアを生成させます。画像。 。これらの質問と回答のペアと画像は、VQA データセットを形成します。
Cambrian-10M: 彼らは大規模な命令微調整データ プールを作成し、それを Cambrian-10M と名付けました。これには、約 9784k のデータ ポイントが含まれています。図9にその構成を示します。
データの再編成
データのバランスを改善し、データの割合を調整するために (図 10 と 11 を参照)、チームは Cambrian-10M を再編成しました。
ついに、小さいながらも高品質のデータセット Cambrian-7M を入手しました。表 6 と 7 は、命令データを再構成することの利点を示しています。Cambrian-7M ではサンプルが少ないにもかかわらず、結果としてパフォーマンスが向上しています。
システムプロンプトを通じて「留守番電話現象」を緩和します
彼らは、いわゆる留守番電話現象についても研究しました。彼らは、十分に訓練された MLLM は VQA ベンチマークの処理には優れているかもしれないが、基本的な会話能力が欠けており、デフォルトでは短く堅苦しい応答を出力することに気づきました。その理由は、より一般的で現実的な使用例とは異なり、ベンチマークの質問に必要な回答が 1 つの選択肢または単語に限定されることが多いためです。同様の現象が他の LLM 研究でも観察されています。
彼らは、この問題の原因は、命令微調整データに含まれる短応答 VQA タスクが多すぎて、LLM で致命的な忘却を引き起こす可能性があることであると推測しています。
この問題を解決するために、チームはトレーニング中に追加のシステム プロンプトを統合しました。たとえば、応答に 1 つの単語またはフレーズを生成する質問の場合は、プロンプトに「この質問に答えるには 1 つの単語またはフレーズを使用してください」のような内容を追加します。このようなシステム プロンプトは、ベースライン パフォーマンスを維持しながら、モデルの会話機能を大幅に向上させることができることがわかりました。図 12 に例を示します。
さらに、システム プロンプトは、モデルに思考連鎖の使用を促すことで推論能力を向上させることもできます。
これまでで最高のパフォーマンス
最後に、チームは探索的研究で得られた洞察を使用して、MLLM モデルの新しいファミリーである Cambrian-1 をトレーニングしました。彼らは、さまざまなサイズの LLM バックボーン ネットワーク (LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B) を使用してモデルをトレーニングしました。
同社のビジョン コンポーネントは、Spatial Vision Aggregator (SVA) を通じて 4 つのモデルを組み合わせています: OpenAI CLIP ViT-L/14@336、SigLIP ViT-SO400M/14@384、OpenCLIP ConvNeXt-XXL@1024、DINOv2 ViT-L /14@ 518.彼らは 2.5M アダプター データを使用してコネクタを事前トレーニングし、その後 Cambrian-7M データ ミキシングを使用して微調整しました。
表 8 と図 13 にモデルの評価結果を示します。
ご覧のとおり、Cambrian-1 は LLaVA-NeXT や Mini-Gemini などのオープンソース モデルを上回っています。 SVA のおかげで、Cambrian-1 は、LLaVA-NeXT や Mini-Gemini 5 で使用されるトークンの数の約 1/1 である 576 個の画像トークンのみを使用しても、高解像度の画像処理を必要とするタスクを非常にうまく処理できます。 。
Cambrian-1 は、複数のベンチマークにおいて、GPT-4V、Gemini-Pro、MM-1 などの最高の独自モデルと同等のパフォーマンスも達成します。
図 14 にいくつかの例を示します。Cambrian-1 は 576 個のトークンしか使用しませんが、画像の細部に効果的に注意を払うことができることがわかります。
また、カンブリア1号というネーミングからも、これが野心的なチームであることが分かります。このシリーズの次世代モデルのアップグレードに期待しましょう。
以上がカンブリア紀 1 号の誕生: Xie Saining と Yann LeCun チームが最も強力なオープンソース マルチモーダル LLM をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。