OpenAI の GPT-4V と Google の Gemini マルチモーダル大規模言語モデルは、産業界と学界から幅広い注目を集めています。これらのモデルは、複数のドメインにおけるビデオの深い理解を実証し、さまざまな観点からその可能性を実証します。これらの進歩は、汎用人工知能 (AGI) に向けた重要な一歩として広く認識されています。
しかし、GPT-4V が漫画の登場人物の行動さえ読み間違える可能性があると言ったら、聞いてみましょう: Yuanfang さん、どう思いますか?
このミニ コミック シリーズを見てみましょう:
写真
生物学的世界の最高の知性、つまり人間、つまり読者にそれを説明するように尋ねたら、おそらく次のように答えるでしょう:
#写真
それでは見てみましょう ほら、機械界の最高知能、つまり GPT-4V がこのミニ漫画シリーズを見たら、このように説明するでしょうか?
画像
写真
写真
写真
写真
各 MLLM のパフォーマンスを自動的に評価するために、作成者は GPT-4 補助テスト方法を使用して評価します。
写真
1作成者は、画像シーケンスとプロンプト ワードを MLLM への入力として受け取り、対応する画像シーケンスに対応する説明を生成します;
2. GPT-4 に、AI が生成した画像内のオブジェクトと動作のキーワードを抽出するようリクエストします。 description;
3. AI が生成した物体キーワード リストと AI が生成した行動キーワード リストの 2 つのキーワード リストを取得します;
4. AI が生成した物体キーワード リストと行動キーワード リストを計算しますAIと人物 アノテーション付きキーワードテーブルの再現率、適合率、F1インデックス。
著者は、Mementos 上のシーケンス画像推論における MLLM のパフォーマンスを評価し、GPT4V や Gemini を含む 9 つの最新の MLLM で実験を行いました。
MLLM は、連続画像に対する MLLM の推論能力を評価するために、画像シーケンス内で発生するイベントを記述するように求められます。
その結果、以下の図に示すように、コミック データ セット内のキャラクターの動作に対する GPT-4V と Gemini の精度は 20% 未満であることがわかりました。
#写真
図
##1. 物体と幻覚行動との相互作用
この研究では、不正確な物体認識がその後の不正確な行動認識につながるという仮説を立てました。定量的分析とケーススタディは、物体の幻覚がある程度の幻覚行動を引き起こす可能性があることを示しています。たとえば、MLLM がシーンを誤ってテニス コートと認識した場合、イメージ シーケンスにはその動作が存在しないにもかかわらず、テニスをしているキャラクターが描写される可能性があります。
2. 幻覚行動に対する共起の影響
MLLM は、画像シーケンス推論で一般的な行動の組み合わせを生成する傾向があります。幻覚症状の問題を悪化させる。たとえば、ロボット工学ドメインからの画像を処理する場合、MLLM は、実際の動作が「引き出しの側面を掴む」ものであっても、ロボット アームが「ハンドルを掴んだ」後に引き出しを引っ張って開けると誤って説明する可能性があります。
3. 行動錯覚の雪だるま効果
画像シーケンスが進むにつれて、エラーが徐々に蓄積または強化されることがあります。これは雪だるま効果と呼ばれます。 。画像シーケンス推論では、エラーが早期に発生すると、これらのエラーがシーケンス内で蓄積および増幅され、オブジェクトおよびアクションの認識精度が低下する可能性があります。
例
写真
From As上の図からわかるように、MLLM が失敗する理由には、物体幻覚、物体幻覚と行動幻覚の相関関係、および同時発生する行動が含まれます。
たとえば、MLLM は、「テニスコート」という物体幻覚を経験した後、「テニスラケットを持っている」という行動的幻覚 (物体幻覚と行動的幻覚との相関関係) と「テニスをしているように見える」という共通の感覚を示しました。 「現在の行動。
#写真
#写真
#ロボット アームの上記の一連の画像表示では、ロボット アームは次の位置に達します。ハンドルの隣では、MLLM はロボット アームがハンドルを握ったと誤って信じており、MLLM が画像シーケンス推論で一般的な行動の組み合わせを生成し、それによって幻覚を引き起こすことが証明されました。
写真
上記のケースでは、古いマスターが犬を抱いていません。MLLM エラーです。犬の散歩の際には犬をリードでつなぐことが義務付けられており、「犬の棒高跳び」は「噴水を作っている」と認識されている。
エラーの多さは、MLLM がコミック分野に不慣れであることを反映しています。2 次元アニメーションの分野では、MLLM は大幅な最適化と事前トレーニングを必要とする可能性があります。
付録では、著者が主要カテゴリごとに失敗事例を詳細に表示し、詳細な分析を行っています。
概要
近年、マルチモーダル大規模言語モデルは、さまざまな視覚言語タスクの処理において優れた機能を実証してきました。
GPT-4V や Gemini などのこれらのモデルは、画像に関連するテキストを理解して生成することができ、人工知能技術の開発を大きく促進します。
ただし、既存の MLLM ベンチマークは主に単一の静止画像に基づく推論に焦点を当てており、変化する世界を理解するには画像シーケンスからの推論が重要です。 。
この課題に対処するために、研究者らは、シーケンス画像推論における MLLM の機能を評価するための新しいベンチマーク「Mementos」を提案しました。
Mementos には、さまざまな長さの 4761 個の多様な画像シーケンスが含まれています。さらに、研究チームはMLLMの推論性能を評価するためにGPT-4補助手法も採用しました。
Mementos 上の 9 つの最新の MLLM (GPT-4V および Gemini を含む) の慎重な評価を通じて、この研究では、特定の画像シーケンスの動的情報を正確に記述するためにこれらのモデルが存在することがわかりました。 、多くの場合、物体とその動作の幻覚や誤った表現が生じます。
定量分析と事例研究により、MLLM におけるシーケンス画像推論に影響を与える 3 つの重要な要素が特定されます:
1. オブジェクトと行動の錯覚間の相関関係;
2. 同時発生する行動の影響;
3. 幻覚行動の累積的な影響。
この発見は、動的な視覚情報を処理するMLLMの能力を理解し、改善する上で非常に重要です。 Mementos ベンチマークは、現在の MLLM の限界を明らかにするだけでなく、将来の研究と改善の方向性も示します。
人工知能テクノロジーの急速な発展に伴い、マルチモーダル理解の分野における MLLM の応用は、より広範囲かつ詳細なものになるでしょう。 Mementos ベンチマークの導入は、この分野の研究を促進するだけでなく、これらの高度な AI システムが複雑で常に変化する世界をどのように処理し、理解するかを理解し、改善するための新しい視点を提供します。
参考資料:
https://github.com/umd-huanglab/Mementos
以上が正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。