マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識の蓄積と、マルチモーダルな問題を解決するための強力な推論および一般化機能に依存しています。これまでにいくつかの驚くべきモデルが登場しています。絵を読む、書く、絵を見るなどの能力そしてコードを書くこと。
しかし、これらの事例のみに基づいて MLLM のパフォーマンスを完全に反映することは困難であり、MLLM の総合的な評価はまだ不足しています。
この目的を達成するために、Tencent Youtu Lab と厦門大学は、新しく作成された評価ベンチマーク MM で既存の 12 のオープンソース MLLM モデルの包括的な定量的評価を初めて実施し、16 のランキングを発表しました。知覚と認知の 2 つの一般的なリストと 14 のサブリストを含むリスト:
論文リンク: https://arxiv.org/pdf / 2306.13394.pdf
プロジェクト リンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
MLLM の既存の定量的評価手法は主に 3 つに分類されますが、いずれも一定の限界があり、パフォーマンスを完全に反映することが困難です。
最初のタイプのメソッドは、画像キャプションやビジュアル質問応答 (VQA) データセットなどの従来の公開データセットで評価されます。
しかし、一方では、これらの従来のデータセットは MLLM の新しい機能を反映するのが難しいかもしれません。他方では、大規模モデル時代のトレーニング セットはもはや存在しないため、統合されているため、これらの評価データセットを保証することは困難であり、他の MLLM によってトレーニングされていません。
2 番目の方法は、公開評価用に新しいデータを収集することですが、これらのデータは公開されていないか [1]、または数が少なすぎます (画像が 50 枚のみ) [2]。
3 番目の方法は、物体の幻覚 [3] や敵対的な堅牢性 [4] など、MLLM の特定の側面に焦点を当てており、完全に評価することはできません。
MLLM の急速な発展に合わせて、包括的な評価ベンチマークが緊急に必要とされています。研究者らは、普遍的で包括的な評価ベンチマークには次の特性が必要であると考えています。
(1) 知覚能力や認知能力を含む、可能な限り多くの範囲をカバーする必要があります。前者は、オブジェクトの存在、量、場所、色などを識別することを指します。後者は、より複雑な推論を実行するために、LLM に感覚情報と知識を統合することを指します。前者は後者の基礎です。
(2) データ漏洩のリスクを軽減するために、データまたは注釈は既存の公開データセットの使用をできる限り避けるべきです。
(3) 指示はできる限り簡潔で、人間の認知習慣と一致している必要があります。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、公平性を確保するためにすべてのモデルは統一された簡潔な命令に基づいて評価されます。優れた MLLM モデルは、即時エンジニアリングに陥ることを避けるために、そのような簡潔な指示に一般化する機能を備えている必要があります。
(4) この簡潔な指示に基づく MLLM の出力は、定量的な統計にとって直感的で便利なものである必要があります。 MLLM の無制限の回答は、量的統計に大きな課題をもたらします。既存の方法では GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。
# 図 1. MME 評価ベンチマークの例。各絵は 2 つの質問に対応しており、答えはそれぞれ Yes[Y] と No[N] です。質問と「はいまたはいいえで答えてください」を合わせてコマンドを形成します。
上記の理由に基づいて、上記の 4 つの特性を同時に備えた新しい MLLM 評価ベンチマーク MME が構築されました。 1. MME 知覚能力と認知能力は同時に評価されます。 OCR に加えて、センシング機能には、粗粒度および細粒度のターゲット認識が含まれます。前者は、オブジェクトの存在、数量、位置、色を識別します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキストの翻訳、およびコードの推論が含まれます。図 1 に示すように、サブタスクの総数は 14 に達します。
2. MME のすべてのコマンドと応答のペアは手動で構築されます。使用されるいくつかの公開データセットでは、元のアノテーションに依存せずに画像のみが使用されます。同時に、研究者は手動による写真撮影や画像生成を通じてデータを収集することにも全力を尽くしています。
3. MME 命令は、モデル出力に対するプロンプト エンジニアリングの影響を避けるために、できる限り簡潔になるように設計されています。研究者らは、優れた MLLM は、このような簡潔で頻繁に使用される命令を一般化する必要があり、これはすべてのモデルにとって公平であると繰り返しています。各サブタスクの手順を図 1 に示します。
4. 「はいかいいえで答えてください」という命令設計により、モデルが出力する「はい」「いいえ」をもとに定量的な統計を簡単に行うことができます。正確さと客観性を同時に確保できます。研究者らが多肢選択式の質問に対する指示を設計しようとしたことも注目に値しますが、現在の MLLM ではそのような複雑な指示に従うのはまだ難しいことが判明しました。
研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、 LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、および LaVIN [15] 。
精度、精度、スコアを含む 3 つの統計指標があります。各タスクの精度は質問の統計に基づいており、精度は画像の統計に基づいており (画像に対応する両方の質問に正しく答える必要があります)、スコアは精度と精度の合計です。
知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトのリンクを参照してください。
#14 のサブタスクにおける 12 のモデルのテストの比較を図 2 に示します。 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの満点は 200 点です。
知覚および認知カテゴリの全体リストと 14 のサブタスクのリストを含む、合計 16 のリストも公開されました。 2 つの全体的なリストをそれぞれ図 3 と図 4 に示しますが、注目に値するのは、BLIP-2 と InstructBLIP がどちらのリストでも上位 3 位に入っていることです。
#図
図 3. 認識タスクの全体リスト
図 4. 認知タスクの全体リスト
##図 5. すべてのリスト
さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題も要約し、その後のモデル最適化の指針となることを期待しています。
図
図 6. MLLM によって明らかにされる一般的な問題。 [Y]/[N] は、実際の答えが Yes/No であることを意味します。 [R] は MLLM によって生成された答えです。
#最初の問題は、指示に従わないことです。
非常に簡潔な指示設計が採用されていますが、MLLM には指示に従うのではなく質問に答える自由がまだあります。
図 6 の最初の行に示すように、コマンドには「はいまたはいいえで答えてください」と記載されていますが、MLLM は宣言的な答えしか与えませんでした。回答の先頭に「はい」または「いいえ」が表示されない場合は不正解と判断します。優れた MLLM は、特に命令を微調整した後、このような単純な命令に一般化できる必要があります。 #2 番目の問題は、認識の欠如です。
図 6 の 2 行目に示すように、MLLM は最初の画像のバナナの数と 2 番目の画像の番号を誤って識別し、その結果、不正解の場合。研究者らはまた、同じ画像に対する 2 つの指示が 1 単語だけ異なると、まったく異なる知覚結果が得られるため、知覚パフォーマンスは指示の変更によって容易に影響を受けることにも気づきました。
3 番目の問題は、推論能力の欠如です。
図 6 の 3 行目に示されているように、赤いテキストから、MLLM は最初の写真がオフィス スペースではないことをすでに知っていることがわかりますが、それでも「はい」という不正解でした。
同様に、2 番目の図では、MLLM は正しい算術結果を計算しましたが、最終的には間違った答えも出しました。 「段階的に考えてみましょう」などの思考連鎖のプロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究が期待されます。
4 番目の質問は、コマンドのオブジェクト ビジョンに続きます。図 6 の 4 行目に示されているように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」と回答します。
常に「はい」と答えるこのアプローチでは、精度は 50% に近く、精度は 0 に近くなります。これは、対象の幻覚を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに考える必要もあります。
以上がBLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。