モバイル端末に大型モデルがやってくる波はますます強くなり、ついに誰かがマルチモーダルな大型モデルをモバイル端末に移しました。最近、美団、浙江大学などが、LLMベーストレーニング、SFT、VLMのプロセス全体を含む、モバイル端末上に展開できるマルチモーダル大規模モデルを発表しました。おそらく近い将来、誰もが自分の大型モデルを便利に、早く、低コストで所有できるようになるでしょう。
MobileVLM は、モバイル デバイス向けに設計された、高速かつ強力でオープンなビジュアル言語アシスタントです。これは、ゼロからトレーニングされた 1.4B および 2.7B パラメーター言語モデル、CLIP 方式で事前トレーニングされたマルチモーダル ビジョン モデル、プロジェクションによる効率的なクロスモーダル インタラクションなど、モバイル デバイス向けのアーキテクチャ設計とテクノロジーを組み合わせたものです。 MobileVLM のパフォーマンスは、さまざまなビジュアル言語ベンチマークにおける大規模モデルと同等です。さらに、Qualcomm Snapdragon 888 CPU と NVIDIA Jeston Orin GPU での最速の推論速度を実証します。
- ##論文アドレス: https://arxiv.org/pdf/2312.16886.pdf
#コード アドレス: https://github.com/Meituan- AutoML /MobileVLM
はじめに
大規模マルチモダリティ モデル(LMM)、特に視覚言語モデル (VLM) ファミリーは、知覚と推論の能力が大幅に強化されているため、ユニバーサル アシスタントを構築するための有望な研究方向となっています。ただし、事前トレーニングされた大規模言語モデル (LLM) とビジュアル モデルの表現をどのように接続し、クロスモーダル特徴を抽出し、視覚的な質問応答、画像字幕、視覚的な知識推論、対話などのタスクを完了する方法は常に問題でした。 。
このタスクにおける GPT-4V と Gemini の優れたパフォーマンスは、何度も証明されています。ただし、これらの独自モデルの技術的な実装の詳細はまだ十分に理解されていません。同時に、研究コミュニティは一連の言語調整方法も提案しています。たとえば、Flamingo はビジュアル トークンを活用して、ゲートされたクロス アテンション レイヤーを通じて凍結された言語モデルを条件付けします。 BLIP-2 は、この対話は不十分であると考え、フリーズされたビジュアル エンコーダから最も有用な機能を抽出し、フリーズされた LLM に直接フィードする軽量のクエリ トランスフォーマ (Q-Former と呼ばれる) を導入します。 MiniGPT-4 は、BLIP-2 のフリーズされたビジュアル エンコーダーと、プロジェクション レイヤーを介してフリーズされた言語モデル Vicuna を組み合わせます。さらに、LLaVA は、単純なトレーニング可能なマッピング ネットワークを適用して、視覚的特徴を、言語モデルによって処理される単語埋め込みと同じ次元の埋め込みトークンに変換します。
大規模なマルチモーダル データの多様性に適応するために、トレーニング戦略が徐々に変化していることは注目に値します。 LLaVA は、LLM の命令調整パラダイムをマルチモーダル シナリオに再現する最初の試みとなる可能性があります。マルチモーダル命令トレースデータを生成するために、LLaVA は画像の説明文や画像のバウンディングボックス座標などのテキスト情報を純粋言語モデル GPT-4 に入力します。 MiniGPT-4 は、まず画像説明文の包括的なデータセットでトレーニングされ、次に [画像とテキスト] のペアのキャリブレーション データセットで微調整されます。 InstructBLIP は、事前トレーニングされた BLIP-2 モデルに基づいてビジュアル言語コマンド チューニングを実行し、Q-Former はコマンド チューニング形式で編成されたさまざまなデータセットでトレーニングされます。 mPLUG-Owl は 2 段階のトレーニング戦略を導入しています。まず視覚部分を事前トレーニングし、次に LoRA を使用して、さまざまなソースからの命令データに基づいて大規模言語モデル LLaMA を微調整します。
#VLM における上記の進歩にもかかわらず、コンピューティング リソースが限られている場合には、依然としてクロスモーダル機能を使用する必要があります。 Gemini は、さまざまなマルチモーダル ベンチマークで sota を上回り、低メモリ デバイス向けに 1.8B および 3.25B パラメータを備えたモバイル グレードの VLM を導入しています。また、Gemini は蒸留や量子化などの一般的な圧縮技術も使用します。このペーパーの目標は、公開データセットと視覚認識と推論のための利用可能なテクノロジーを使用してトレーニングされ、リソースに制約のあるプラットフォーム向けに調整された、初のオープンなモバイル グレード VLM を構築することです。この記事の貢献は次のとおりです。 この記事では、マルチモーダル視覚言語モデルのフルスタック変換である MobileVLM を提案します。モバイルシナリオ向けにカスタマイズされています。著者らによると、これは詳細で再現可能で強力なパフォーマンスをゼロから提供する初めてのビジュアル言語モデルだという。研究者たちは、管理されたオープンソースのデータセットを通じて、一連の高性能の基本言語モデルとマルチモーダルモデルを確立しました。 この論文では、ビジュアル エンコーダーの設計に関して広範なアブレーション実験を実施し、さまざまなトレーニング パラダイム、入力解像度、モデル サイズに対する VLM のパフォーマンス感度を体系的に評価します。 この論文では、視覚的特徴とテキスト特徴の間の効率的なマッピング ネットワークを設計します。これにより、推論の消費を削減しながら、マルチモーダルな特徴をより適切に調整できます。 この記事で設計されたモデルは、Qualcomm のモバイル CPU と 65.5 インチ プロセッサで測定された速度 21.5 トークン/秒で、低電力モバイル デバイス上で効率的に実行できます。 MobileVLM は、ベンチマークで多数のマルチモーダル大規模モデルと同等のパフォーマンスを示し、多くの実際的なタスクでのアプリケーションの可能性を証明しています。この記事はエッジ シナリオに焦点を当てていますが、MobileVLM は、クラウド内の強力な GPU でのみサポートできる多くの最先端の VLM よりも優れたパフォーマンスを発揮します。
研究者らは、リソースが限られたエッジ デバイスで効率的な視覚認識と推論を達成するという主な目標を考慮して、図 1 に示すように MobileVLM の全体的なアーキテクチャを設計しました。モデルは 3 つのコンポーネントで構成されます: 1) ビジュアル エンコーダ、2) カスタマイズされた LLM エッジ デバイス (MobileLLaMA)、3) アライメント用の効率的なマッピング ネットワーク (論文では「Lightweight Downsampling Mapping」、LDP と呼ばれます)空間。
画像 を入力として受け取ると、ビジュアル エンコーダ F_enc は画像認識のための視覚的埋め込み を抽出します。ここで、N_v = HW/P^2 は画像ブロックの数を表し、D_v は画像ブロックの隠れ層サイズを表します。視覚的な埋め込み。画像トークン処理の効率の問題を軽減するために、研究者らは、視覚特徴圧縮と視覚テキストモーダル整列のための軽量マッピングネットワーク P を設計しました。次のように、 f を単語埋め込み空間に変換し、後続の言語モデルに適切な入力次元を提供します:
このようにして、イメージ# のトークンが取得されます # #そしてテキスト トークン 。N_t はテキスト トークンの数を表し、D_t は単語埋め込みスペースのサイズを表します。現在の MLLM 設計パラダイムでは、LLM の計算量とメモリ消費量が最も大きくなります。これを考慮して、この記事では、速度の点でかなりの利点があり、自己回帰手法を実行できる、推論に適した一連の LLM をモバイル アプリケーション向けに調整します。マルチモーダル入力、L は出力トークンの長さを表します。このプロセスは で表すことができます。 本書のセクション 5.1 によると、原文へ 実証分析のために、研究者らは、ビジュアルエンコーダF_encとして解像度336×336の事前トレーニング済みCLIP ViT-L/14を使用しました。 Visual Transformer (ViT) は、画像を均一なサイズの画像ブロックに分割し、各画像ブロックに対して線形埋め込みを実行します。その後、位置エンコーディングと統合した後、結果のベクトル シーケンスが通常の変換エンコーダに供給されます。通常、分類に使用されるトークンは、後続の分類タスクのシーケンスに追加されます。
言語モデルについては、この記事では LLaMA のサイズを次のように縮小します。つまり、この論文で提案されているモデルは、ほとんどすべての一般的な推論フレームワークをシームレスにサポートできます。さらに、研究者らは、適切なモデル アーキテクチャを選択するために、エッジ デバイス上のモデルの遅延も評価しました。 Neural Architecture Search (NAS) は良い選択ですが、現在、研究者はそれを現在のモデルにすぐには適用していません。表 2 に、この論文のアーキテクチャの詳細な設定を示します。
具体的には、この記事では、語彙サイズ 32000 の LLaMA2 のセンテンスピーストークナイザーを使用し、埋め込み層を最初からトレーニングします。これにより、その後の蒸留が容易になります。リソースが限られているため、事前トレーニング段階ですべてのモデルで使用されるコンテキストの長さは 2k です。ただし、「位置補間による大規模言語モデルのコンテキスト ウィンドウの拡張」で説明されているように、推論中のコンテキスト ウィンドウはさらに 8k まで拡張できます。その他のコンポーネントの詳細設定は以下の通りです。
- RoPE を適用して位置情報を挿入します。
- 事前正規化を適用してトレーニングを安定させます。具体的には、この論文ではレイヤー正規化の代わりに RMSNorm を使用し、MLP 拡張率には 4 ではなく 8/3 を使用します。
- GELU の代わりに SwiGLU アクティベーション関数を使用します。
ビジュアル エンコーダーと言語モデルの間のマッピング ネットワークは、マルチモーダル機能を調整するために重要です。既存のモードには、Q-Former と MLP プロジェクションの 2 つがあります。 Q-Former は、各クエリに含まれるビジュアル トークンの数を明示的に制御して、最も関連性の高いビジュアル情報を強制的に抽出します。しかし、この方法ではトークンの空間的位置情報の喪失が避けられず、収束速度も遅い。さらに、エッジデバイスでの推論には効率的ではありません。対照的に、MLP は空間情報を保存しますが、多くの場合、背景などの役に立たないトークンが含まれます。パッチ サイズが P の画像の場合、N_v = HW/P^2 のビジュアル トークンを LLM に注入する必要があるため、全体の推論速度が大幅に低下します。 ViT の条件付き位置コーディング アルゴリズム CPVT からインスピレーションを得た研究者は、畳み込みを使用して位置情報を強化し、ビジュアル エンコーダーのローカル インタラクションを促進します。具体的には、効率的であり、さまざまなエッジ デバイスで十分にサポートされているディープ コンボリューション (PEG の最も単純な形式) に基づくモバイル フレンドリーな操作を調査しました。 空間情報を保持し、計算コストを最小限に抑えるために、この記事ではストライド 2 の畳み込みを使用し、それによってビジュアル トークンの数を 75% 削減します。この設計により、全体的な推論速度が大幅に向上します。ただし、実験結果によると、トークン サンプルの数を減らすと、OCR などの下流タスクのパフォーマンスが大幅に低下します。この影響を軽減するために、研究者らは単一の PEG を置き換えるより強力なネットワークを設計しました。 Lightweight Downsampling Mapping (LDP) と呼ばれる効率的なマッピング ネットワークの詳細なアーキテクチャを図 2 に示します。特に、このマッピング ネットワークに含まれるパラメータの数は 2,000 万未満で、ビジュアル エンコーダよりも約 81 倍高速に実行されます。
この記事では、トレーニングがバッチ サイズの影響を受けないように、「バッチ正規化」の代わりに「レイヤー正規化」を使用します。形式的には、LDP (P と表記) はビジュアル埋め込み を入力として受け取り、効率的に抽出され位置合わせされたビジュアル トークン を出力します。 #式は次のとおりです。
表 3 では、研究者はこの記事で提案された結果を 2 つの基準で評価しました。自然言語ベンチマーク: モデルは、それぞれ言語理解と常識推論を対象とした 2 つのベンチマークで広範囲に評価されました。前者の評価では、この記事では言語モデル評価ハーネスを使用します。実験結果は、MobileLLaMA 1.4B が TinyLLaMA 1.1B、Gaoptica 1.3B、OPT 1.3B、Pythia 1.4B などの最新のオープンソース モデルと同等であることを示しています。 MobileLLaMA 1.4B は、2T レベルのトークンでトレーニングされ、MobileLLaMA 1.4B の 2 倍高速である TinyLLaMA 1.1B よりも優れたパフォーマンスを示していることは注目に値します。表 5 に示すように、3B レベルでは、MobileLLaMA 2.7B は INCITE 3B (V1) および OpenLLaMA 3B (V1) と同等のパフォーマンスを示します。Snapdragon 888 CPU では、MobileLLaMA 2.7B は OpenLLaMA 3B より約 40% 高速です。
#SOTA VLM との比較
これはこの論文では、GQA、ScienceQA、TextVQA、POPE、および MME における LLaVA のマルチモーダル パフォーマンスを評価しています。また、本稿ではMMBenchを用いた総合比較も行っています。表 4 に示すように、MobileVLM は、パラメーターが削減され、トレーニング データが限られているにもかかわらず、競争力のあるパフォーマンスを達成します。場合によっては、そのメトリックは、以前の最先端のマルチモーダル視覚言語モデルよりも優れたパフォーマンスを発揮することさえあります。 ##低ランク適応 (LoRA) は、より少ないトレーニング可能なパラメーターで使用できます。完全に微調整された LLM よりもさらに優れたパフォーマンス。この論文では、この実践の実証的研究を実施して、そのマルチモーダルなパフォーマンスを検証します。具体的には、VLM 視覚命令の調整フェーズ中に、この論文は LoRA マトリックスを除くすべての LLM パラメータを凍結します。 MobileLLaMA 1.4B と MobileLLaMA 2.7B では、更新されたパラメーターはそれぞれ完全な LLM の 8.87% と 7.41% にすぎません。 LoRA の場合、この記事では lora_r を 128 に、lora_α を 256 に設定します。結果を表 4 に示します。LoRA を使用した MobileVLM は、6 つのベンチマークで完全な微調整に匹敵するパフォーマンスを達成しており、これは LoRA の結果と一致していることがわかります。 研究著者Realme GT 携帯電話と NVIDIA Jetson AGX Orin プラットフォームでの MobileLLaMA と MobileVLM の推論遅延を評価しました。この携帯電話は、Snapdragon 888 SoC と 8 GB の RAM を搭載しており、26 TOPS のコンピューティング能力を提供します。 Orin は 32 GB のメモリを搭載し、275 TOPS という驚異的なコンピューティング能力を提供します。 CUDA バージョン 11.4 を使用し、最新の並列コンピューティング テクノロジをサポートしてパフォーマンスを向上させます。 #アブレーション実験 表 7 では、研究者は、さまざまなスケールとさまざまな数のビジュアル トークンでマルチモーダル パフォーマンスを比較しました。すべての実験では、ビジュアル エンコーダとして CLIP ViT を使用しました。
#VL マッピング ネットワーク
機能の相互作用とトークン どちらの相互作用も有益であり、研究者らは前者には深さ畳み込みを、後者にはポイント畳み込みを使用しました。表 9 は、さまざまな VL マップされたネットワークのパフォーマンスを示しています。表 9 の行 1 は LLaVA で使用されるモジュールで、2 つの線形層を通じて特徴空間を変換するだけです。行 2 は、トークン相互作用のために各 PW (ポイント単位) の前に DW (深さ方向) 畳み込みを追加します。これは、ストライド 2 で 2x ダウンサンプリングを使用します。 2 つのフロントエンド PW レイヤーを追加すると、より多くの機能レベルの対話が可能になり、トークンの削減によって生じるパフォーマンスの損失が補われます。行 4 と行 5 は、パラメータを追加しても望ましい効果が得られないことを示しています。行 4 と行 6 は、マッピング ネットワークの最後でトークンをダウンサンプリングするとプラスの効果があることを示しています。
ビジュアル解像度とトークン数
ビジュアル トークンの数は直接影響するため、このペーパーでは、モーダル モデルの推論速度について、入力解像度 (RIR) を下げることと軽量ダウンサンプリング プロジェクター (LDP) を使用するという 2 つの設計オプションを比較します。
#SFT の定量分析
LLaMA で微調整された Vicuna は、大規模なマルチモーダル モデルに広く使用されています。表 10 は、2 つの一般的な SFT パラダイム、アルパカとビクーニャを比較しています。研究者らは、SQA、VQA、MME、MMBench のスコアがすべて大幅に改善されたことを発見しました。これは、Vicuna 会話モードで ShareGPT のデータを使用して大規模な言語モデルを微調整すると、最終的に最高のパフォーマンスが得られることを示しています。 SFT のプロンプト形式と下流タスクのトレーニングをより適切に統合するために、この論文では MobileVLM の会話モードを削除し、vicunav1 が最高のパフォーマンスを発揮することを発見しました。
結論
要するに、MobileVLM はモバイルおよびモバイル向けに設計されたツールスイートです。 IoT デバイス向けにカスタマイズされた効率的かつ強力なモバイル ビジュアル言語モデル。この文書では、言語モデルと視覚的マッピング ネットワークをリセットします。研究者らは、適切なビジュアル バックボーン ネットワークの選択、効率的なマッピング ネットワークの設計、言語モデル SFT (事前トレーニングと指示調整を含む 2 段階のトレーニング戦略) や LoRA ファインなどのトレーニング ソリューションを通じてモデルの機能を強化するために広範な実験を実施しました。チューニングです。研究者は、主流の VLM ベンチマークで MobileVLM のパフォーマンスを厳密に評価しました。 MobileVLM は、一般的なモバイル デバイスや IoT デバイスでも前例のない速度を示します。研究者らは、MobileVLM がモバイル デバイスや自動運転車に導入されるマルチモーダル アシスタントや、より広範な人工知能ロボットなどの幅広いアプリケーションに新たな可能性を開くと考えています。 以上がMeituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイル マルチモーダル大型モデル MobileVLM を開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。