正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク

王林
リリース: 2024-02-01 19:06:13
転載
959 人が閲覧しました

OpenAI の GPT-4V と Google の Gemini マルチモーダル大規模言語モデルは、産業界と学界から幅広い注目を集めています。これらのモデルは、複数のドメインにおけるビデオの深い理解を実証し、さまざまな観点からその可能性を実証します。これらの進歩は、汎用人工知能 (AGI) に向けた重要な一歩として広く認識されています。

しかし、GPT-4V が漫画の登場人物の行動さえ読み間違える可能性があると言ったら、聞いてみましょう: Yuanfang さん、どう思いますか?

このミニ コミック シリーズを見てみましょう:

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

生物学的世界の最高の知性、つまり人間、つまり読者にそれを説明するように尋ねたら、おそらく次のように答えるでしょう:

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク#写真

それでは見てみましょう ほら、機械界の最高知能、つまり GPT-4V がこのミニ漫画シリーズを見たら、このように説明するでしょうか?

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク画像

##GPT-4V は、軽蔑の連鎖の頂点に立つと認識されている機械知能として、公然と嘘をつきます。

さらにとんでもないことは、たとえ GPT-4V に実際の生活の画像クリップが与えられたとしても、階段を上りながら別の人と話している人の行動を、「武器」を持った 2 人として認識するというばかばかしいことです。お互いに戦ったり遊んだりします (下の図を参照)。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

双子座もそれほど遅れていません。同じ画像の断片には、男性が二階に上がろうともがきながらロックされている間に妻と口論している様子が映っています。家の中に。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

これらの例は、特別に設計されたシステムを立ち上げたメリーランド大学とノースカロライナ チャペルヒル大学の研究チームの最新の結果から得たものです。 MLLM 用 画像シーケンスの推論ベンチマーク - Mementos。

ノーラン監督の映画『メメント』がストーリーテリングを再定義したように、『メメントス』は人工知能のテストの限界を再構築しています。

新しいベンチマーク テストとして、記憶の断片のような画像シーケンスに対する人工知能の理解に挑戦します。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

紙のリンク: https://arxiv.org/abs/2401.10529

プロジェクトのホームページ: https://mementos -bench.github.io

Mementos は、MLLM 専用に設計された画像シーケンス推論の最初のベンチマーク テストで、連続画像上の大規模モデルの物体幻覚と行動幻覚に焦点を当てています。

これには、現実世界の画像、ロボット画像、アニメーション画像という 3 つの主要なカテゴリをカバーする、さまざまな種類の画像が含まれます。

には、長さの異なる 4,761 個の多様な画像シーケンスが含まれており、それぞれの画像には、主要なオブジェクトとそのシーケンス内での動作に関する人間による注釈付きの説明が含まれています。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

データは現在オープンソースであり、現在も更新されています。

幻覚の種類

著者は論文の中で、MLLM が Mementos で生成する 2 種類の幻覚 (物体幻覚と行動幻覚) について説明しています。

名前が示すように、物体幻覚は存在しない物体(オブジェクト)を想像することですが、行動幻覚はその物体が実行しなかった行動や行動を想像することです。

評価方法

Mementos 上の MLLM の行動幻覚と物体幻覚を正確に評価するために、研究チームは、MLLM によって生成された画像の説明と人物の注釈を使用することを選択しました。 MLLM: キーワード マッチングの説明。

各 MLLM のパフォーマンスを自動的に評価するために、作成者は GPT-4 補助テスト方法を使用して評価します。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク写真

1作成者は、画像シーケンスとプロンプト ワードを MLLM への入力として受け取り、対応する画像シーケンスに対応する説明を生成します;

2. GPT-4 に、AI が生成した画像内のオブジェクトと動作のキーワードを抽出するようリクエストします。 description;

3. AI が生成した物体キーワード リストと AI が生成した行動キーワード リストの 2 つのキーワード リストを取得します;

4. AI が生成した物体キーワード リストと行動キーワード リストを計算しますAIと人物 アノテーション付きキーワードテーブルの再現率、適合率、F1インデックス。

評価結果

著者は、Mementos 上のシーケンス画像推論における MLLM のパフォーマンスを評価し、GPT4V や Gemini を含む 9 つの最新の MLLM で実験を行いました。

MLLM は、連続画像に対する MLLM の推論能力を評価するために、画像シーケンス内で発生するイベントを記述するように求められます。

その結果、以下の図に示すように、コミック データ セット内のキャラクターの動作に対する GPT-4V と Gemini の精度は 20% 未満であることがわかりました。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク#写真

実世界の画像やロボット画像では、GPT-4V と Gemini のパフォーマンスは満足のいくものではありません:

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク

キーポイント

1. マルチモーダル大規模言語モデルを評価する場合の GPT-4V および LLaVA-1.5 これらが最良です-それぞれブラックボックスとオープンソースのMLLMでモデルを実行します。 GPT-4V は、画像シーケンスを理解する推論能力において他のすべての MLLM を上回っていますが、LLaVA-1.5 は、オブジェクト理解においてブラック ボックス モデル Gemini とほぼ同等か、それを上回っています。

2. Video-LLaMA-2 と Chat-UniVi はビデオを理解できるように設計されていますが、LLaVA-1.5 より優れた利点はありません。

3. すべての MLLM は、画像シーケンス内のオブジェクト推論の 3 つの指標に関して、行動推論よりも大幅に優れたパフォーマンスを示しており、現在の MLLM が連続画像から自律的に動作を推論する能力が弱いことを示しています。

4. ブラック ボックス モデルはロボット工学の分野で最も優れたパフォーマンスを発揮しますが、オープンソース モデルは日常生活の分野で比較的良好なパフォーマンスを発揮します。これは、トレーニング データの分布のシフトに関連している可能性があります。

5. トレーニング データの制限により、オープンソース MLLM の推論機能が弱くなります。これは、トレーニング データの重要性と、それがモデルのパフォーマンスに直接影響することを示しています。

エラーの理由

著者は、画像シーケンス推論の処理時に現在のマルチモーダル大規模言語モデルが失敗する理由を分析し、主に次の 3 つのエラーの理由を特定しました。

##1. 物体と幻覚行動との相互作用

この研究では、不正確な物体認識がその後の不正確な行動認識につながるという仮説を立てました。定量的分析とケーススタディは、物体の幻覚がある程度の幻覚行動を引き起こす可能性があることを示しています。たとえば、MLLM がシーンを誤ってテニス コートと認識した場合、イメージ シーケンスにはその動作が存在しないにもかかわらず、テニスをしているキャラクターが描写される可能性があります。

2. 幻覚行動に対する共起の影響

MLLM は、画像シーケンス推論で一般的な行動の組み合わせを生成する傾向があります。幻覚症状の問題を悪化させる。たとえば、ロボット工学ドメインからの画像を処理する場合、MLLM は、実際の動作が「引き出しの側面を掴む」ものであっても、ロボット アームが「ハンドルを掴んだ」後に引き出しを引っ張って開けると誤って説明する可能性があります。

3. 行動錯覚の雪だるま効果

画像シーケンスが進むにつれて、エラーが徐々に蓄積または強化されることがあります。これは雪だるま効果と呼ばれます。 。画像シーケンス推論では、エラーが早期に発生すると、これらのエラーがシーケンス内で蓄積および増幅され、オブジェクトおよびアクションの認識精度が低下する可能性があります。

写真正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク

From As上の図からわかるように、MLLM が失敗する理由には、物体幻覚、物体幻覚と行動幻覚の相関関係、および同時発生する行動が含まれます。

たとえば、MLLM は、「テニスコート」という物体幻覚を経験した後、「テニスラケットを持っている」という行動的幻覚 (物体幻覚と行動的幻覚との相関関係) と「テニスをしているように見える」という共通の感覚を示しました。 「現在の行動。

正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク#写真

#上の写真のサンプルを観察すると、MLLM が誤って信じていることがわかります。椅子がさらに進むということ 後ろにもたれて、椅子が壊れたと思ってください。

この現象は、MLLM が画像シーケンス内の静的なオブジェクトに対して、そのオブジェクトに対して何らかのアクションが発生したような錯覚を引き起こす可能性があることを明らかにしています。

#写真正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク

#ロボット アームの上記の一連の画像表示では、ロボット アームは次の位置に達します。ハンドルの隣では、MLLM はロボット アームがハンドルを握ったと誤って信じており、MLLM が画像シーケンス推論で一般的な行動の組み合わせを生成し、それによって幻覚を引き起こすことが証明されました。

写真正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマーク

上記のケースでは、古いマスターが犬を抱いていません。MLLM エラーです。犬の散歩の際には犬をリードでつなぐことが義務付けられており、「犬の棒高跳び」は「噴水を作っている」と認識されている。

エラーの多さは、MLLM がコミック分野に不慣れであることを反映しています。2 次元アニメーションの分野では、MLLM は大幅な最適化と事前トレーニングを必要とする可能性があります。

付録では、著者が主要カテゴリごとに失敗事例を詳細に表示し、詳細な分析を行っています。

概要

近年、マルチモーダル大規模言語モデルは、さまざまな視覚言語タスクの処理において優れた機能を実証してきました。

GPT-4V や Gemini などのこれらのモデルは、画像に関連するテキストを理解して生成することができ、人工知能技術の開発を大きく促進します。

ただし、既存の MLLM ベンチマークは主に単一の静止画像に基づく推論に焦点を当てており、変化する世界を理解するには画像シーケンスからの推論が重要です。 。

この課題に対処するために、研究者らは、シーケンス画像推論における MLLM の機能を評価するための新しいベンチマーク「Mementos」を提案しました。

Mementos には、さまざまな長さの 4761 個の多様な画像シーケンスが含まれています。さらに、研究チームはMLLMの推論性能を評価するためにGPT-4補助手法も採用しました。

Mementos 上の 9 つの最新の MLLM (GPT-4V および Gemini を含む) の慎重な評価を通じて、この研究では、特定の画像シーケンスの動的情報を正確に記述するためにこれらのモデルが存在することがわかりました。 、多くの場合、物体とその動作の幻覚や誤った表現が生じます。

定量分析と事例研究により、MLLM におけるシーケンス画像推論に影響を与える 3 つの重要な要素が特定されます:

1. オブジェクトと行動の錯覚間の相関関係;

2. 同時発生する行動の影響;

3. 幻覚行動の累積的な影響。

この発見は、動的な視覚情報を処理するMLLMの能力を理解し、改善する上で非常に重要です。 Mementos ベンチマークは、現在の MLLM の限界を明らかにするだけでなく、将来の研究と改善の方向性も示します。

人工知能テクノロジーの急速な発展に伴い、マルチモーダル理解の分野における MLLM の応用は、より広範囲かつ詳細なものになるでしょう。 Mementos ベンチマークの導入は、この分野の研究を促進するだけでなく、これらの高度な AI システムが複雑で常に変化する世界をどのように処理し、理解するかを理解し、改善するための新しい視点を提供します。

参考資料:

https://github.com/umd-huanglab/Mementos

以上が正解率は20%未満、GPT-4V/Geminiは漫画が読めない!初のオープンソース画像シーケンスベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!