純粋なテキストのラージ モデルが優勢であり、マルチモーダルなラージ モデルの研究がマルチモーダル分野で出現し始めています。表面上最も強力な GPT-4 は、画像を読み取るマルチモーダル機能を備えていますが、まだ実現されていません。経験のために一般に公開されているため、胡研究コミュニティはこの方向で研究とオープンソースを開始しました。 MiniGPT-4 と LLaVA の出現直後、Alibaba DAMO Academy は、モジュール実装に基づく大規模なマルチモーダル モデルである mPLUG-Owl を立ち上げました。
mPLUG-Owl は、Alibaba Damo Academy の mPLUG シリーズの最新作であり、mPLUG シリーズのモジュール型トレーニングのアイデアを継承し、LLM を大規模なマルチモーダル モデルにアップグレードしています。 mPLUG シリーズの研究では、これまでの E2E-VLP、mPLUG、mPLUG-2 がそれぞれ ACL2021、EMNLP2022、ICML2023 に承認され、その中でも mPLUG の研究は超人的な結果で VQA リストのトップに輝きました。
今日紹介したいのは mPLUG-Owl です。この研究は、多数の事例を通じて優れたマルチモーダル機能を実証するだけでなく、視覚関連の指示を理解するための包括的なテスト セットを提案しますOwlEval は、LLaVA、MiniGPT-4、BLIP-2、システムベースの MM-REACT など、手動評価を通じて既存のモデルを比較しました。実験結果は、mPLUG-Owl が、特にマルチモードで優れたマルチモーダル機能を発揮することを示しています。 modal 動的な指示の理解力、複数ターンの対話能力、知識推論能力などの面で優れたパフォーマンス
##ペーパーリンク: https://arxiv.org/abs/2304.14178
コードリンク: https://github. com/X-PLUG /mPLUG-Owl
ModelScope エクスペリエンス アドレス:
https ://modelscope.cn/studios/damo/mPLUG-Owl/summary
HuggingFace 体験アドレス:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
マルチモーダル機能のデモンストレーションmPLUG を組み合わせます-Owl と既存の作品を比較して mPLUG-Owl のマルチモーダル効果を実感してください この作品で評価されたテストサンプルは基本的に既存の作品からのものであり、チェリーピックの問題を回避していることは言及する価値があります。
以下の図 6 は、mPLUG-Owl の強力なマルチラウンド対話機能を示しています。
#図 7 から、mPLUG-Owl には強力な推論機能があることがわかります。# 図 9 は、ジョークの説明の例をいくつか示しています。
この研究では、評価と比較に加えて、研究チームは、mPLUG-Owl が最初はある程度の関心を示したことも観察しました。複数画像の関連付け、複数言語、テキスト認識、文書理解などの予期しない機能。
図 10 に示すように、マルチグラフ相関データはトレーニング フェーズ中にトレーニングされませんでしたが、mPLUG-Owl は特定のマルチグラフ相関機能を実証しました。
図 11 に示すように、mPLUG-Owl はトレーニング段階では英語データのみを使用しますが、興味深い多言語が開発されたことが示されています。能力。これは、mPLUG-Owl の言語モデルが LLaMA を使用しているため、この現象が発生している可能性があります。
mPLUG-Owl は注釈付き文書データでトレーニングされていませんが、それでも一定のテキスト認識と文書理解を実証しました。機能、テスト結果は示されています。図 12 にあります。
#方法の紹介この研究で提案する mPLUG-Owl の全体的なアーキテクチャを図に示します。 2 表示します。
モデル構造: Visual Basic モジュールで構成されます
(オープンソース ViT-L)、ビジュアル抽象化モジュール
および事前トレーニング済み言語モデル
(LLaMA-7B) 構成。視覚的抽象化モジュールは、長くきめの細かい画像の特徴を少数の学習可能なトークンに要約し、それによって視覚情報の効率的なモデリングを実現します。生成されたビジュアル トークンは、テキスト クエリとともに言語モデルに入力され、対応する応答が生成されます。
#モデル トレーニング: 2 段階のトレーニング方法を採用
第一段階: 主な目的また、最初に視覚的モダリティと言語的モダリティの対立を学ぶことも重要です。以前の研究とは異なり、mPLUG-Owl は、基本的な視覚モジュールを凍結すると、視覚的な知識とテキストの知識を関連付けるためのモデルの能力が制限されることを提案しています。したがって、mPLUG-Owl は、最初の段階で LLM のパラメータのみをフリーズし、LAION-400M、COYO-700M、CC、および MSCOCO を使用してビジュアルベーシックモジュールとビジュアルサマリーモジュールをトレーニングします。
第 2 段階: mPLUG と mPLUG-2 の異なるモダリティの混合トレーニングが相互に有益であるという発見を続け、Owl は指導の第 2 段階でも純粋なトレーニングを使用します。チューニング トレーニング テキスト コマンド データ (Alpaca から 52k、Vicuna から 90k、Baize から 50k) およびマルチモーダル コマンド データ (LLaVA から 150k)。詳細なアブレーション実験を通じて、著者は、指示の理解などの面で純粋なテキストによる指示の微調整の導入によってもたらされる利点を検証しました。第 2 段階では、ビジュアルベーシックモジュール、ビジュアルサマリーモジュール、およびオリジナルの LLM のパラメータが凍結され、LoRA を参照して、命令の微調整のために少数のパラメータを持つアダプタ構造のみが LLM に導入されます。
実験結果
SOTA の比較SOTA のマルチモーダル機能を比較するために、この作業では、マルチモーダル命令評価セット OwlEval を構築します。現在、適切な自動化された指標がないため、モデルの応答を手動で評価するには自己啓発を参照してください。スコア付けルールは次のとおりです: A="正確で満足"; B="いくつかの不完全性はあるが許容範囲"; C =指示はありましたが、応答に明らかな誤りがありました"; D="完全に無関係または不正確な応答"。
比較結果は以下の図 3 に示されており、視覚関連のコマンド応答タスクにおいて Owl が既存の OpenFlamingo、BLIP-2、LLaVA、および MiniGPT-4 よりも優れていることが実験により証明されています。
#多次元の能力比較
マルチモーダル コマンド応答タスクには、コマンドの理解、視覚的な理解、画像上のテキストの理解、推論など、さまざまな能力が必要です。モデルのさまざまな機能のレベルをきめ細かく調査するために、この記事ではマルチモーダル シナリオにおける 6 つの主要な機能をさらに定義し、各 OwlEval テスト命令に関連する機能要件とそれに反映されたモデルの応答を手動で注釈付けします。 . どのような能力が身についたのか。 結果は以下の表 6 に示されています。実験のこの部分では、著者はトレーニング戦略とマルチモーダル指導の有効性を検証するためにオウル アブレーション実験を行っただけではありません。データの調整だけでなく、前の実験で最もパフォーマンスの良かったベースラインである MiniGPT4 も比較したところ、その結果は、機能のあらゆる側面において Owl が MiniGPT4 よりも優れていることを示しました。 #
以上がDAMO アカデミーの mPLUG-Owl がデビュー: GPT-4 マルチモーダル機能に追いつくモジュール式マルチモーダル大型モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。