AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
現在の視覚言語モデル (VLM) は主に QA の質問と回答フォームを通じてパフォーマンス評価を行っていますが、言語の基本的な理解能力の評価が不足しています。モデル(詳細など) 画像キャプション パフォーマンスの信頼できる尺度。 この問題に対応して、中国科学院、北京大学、バイト豆宝ビッグモデルチームはDetailCaps-4870データセットをリリースし、オープンソースの中で最も高い専門家評価のコンセンサスを達成した効果的な評価指標CAPTUREを提案しました。低コストで GPT-Eval と同等の結果を実現します。
- 論文: https://arxiv.org/abs/2405.19092
- データセット: https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
- コード: https://github.com/foundation-multimodal-models/CAPTURE
現在のLVLM (ラージビジョン言語モデル) 評価には次の問題があります:
- 既存の LVLM 評価ソリューションは主に VQA 形式を採用していますが、これは指示に従う能力に大きく影響され、QA プロンプトの設計は人間のバイアスを容易に導入する可能性があります。
- 画像キャプションタスクはモデルの理解能力を効果的に評価できますが、既存のキャプションベンチマークは主に短いキャプションをグランドトゥルースとして使用しており、これはlvlm時代には完全に時代遅れです。
- 同時に、既存の画像キャプション評価指標は、人間や GPT などの専門家の評価結果との整合性が低く、ブルーやルージュなどのマッチングに使用される N グラムを抽出するため、感度が十分ではありません。重要な情報の正確性。 GPT-Eval は専門家による評価とより一貫性がありますが、評価コストが高くなります。
これらの問題に対応して、本研究では、低コストで LVLM 画像理解能力の正確な評価を実現するための、新しい詳細画像キャプション ベンチマークと評価指標を提案します。 この研究では、提案された評価データセットと指標の指導の下で、詳細画像キャプションに対するLVLM独自の機能を探索するデータ構築方法も調査し、詳細キャプションデータの品質を効果的に向上させました。 C 図 1: 左側はキャプチャ メトリック インスタンスの表示、右側は詳細キャプション構築方法です。この研究で提案された詳細画像キャプション ベンチマークでは、テキストの長さが長くなり、非反復の数が大幅に増加します。 -グラム、より豊富な視覚情報が含まれています: 表 1: DetailCaps ベンチマーク統計情報 (ex
情報) 指標による評価は、4 つのステップを通じてキャプション品質評価を実施します。以下の図に示すように、まず Factual praser [1] を使用して詳細キャプション内のオブジェクト、属性、関係要素を抽出し、次に実質的に重要性のないオブジェクトを除外します。その後、obj、attr、rel要素の3段階のマッチング(完全一致、同義語一致、埋め込み一致)によりマッチングスコア(F1スコア)を計算し、重み付けをして最終結果とします。
>データ合成により、詳細キャプションデータの品質を効果的に向上させます。このソリューションでは、まず LVLM を使用して画像全体のキャプションを生成し、次にセグメンテーション モデル (SAM [2]) やクラスタリングなどのフィルタリング手法を使用して画像内の重要な位置を見つけ、ローカル キャプション生成用に切り出します。この記事では、キャプション内の幻覚を減らすために単語レベルのフィルタリング手法を使用しています。この手法では、まず画像内の視覚要素を説明する単語やフレーズが解析され、次にターゲット検出モデル (Owlv2 [3]) を通じてスコアの低い画像がフィルタリングされます。 ])。最後に、フィルタリングされた完全な画像キャプションとローカル キャプションが LLM (LLaMA2 [4]) に送信され、最終的な画像の説明に融合されます。
CAPTURE指標
この研究はDetailCapsにあります1 00 (参照キャプションの手動注釈、モデルの手動評価 LLaVA-1.5 [5]、CogVLM [6]、および ShareCaptioner [7] の 3 つのモデルによって生成されたキャプションは、エキスパート スコアでテストされ、各評価指標とエキスパート評価の間の一貫性が計算されます。
' ' s t------ 評価指標 専門家の評価との一貫性は、ピアソン相関 (線形相関)、R^2 (絶対値)、ケンダルのタウ (部分的) によって測定されます。順序付きペアの一貫性)、および (サンプルごとの(ケンドールの)タウ(サンプルごとに個別に計算される)平均)指標が測定されます。 結果は、CAPTURE がさまざまな指標において最高の専門家評価の一貫性を達成していることを示しています。これらの指標の中で、Sample tau の計算方法は実際の詳細画像キャプションの評価に最も近く、この指標に関して GPT4-Eval に近い唯一の方法でもあり、評価の精度とコストのバランスが取れています。
(2) アブレーション解析
研究者らはまた、CAPTURE の各モジュールに対してアブレーション解析を実施し、その有効性を検証しました:
表 3: CAPTURE 実験結果は、ストップワードがサンプルタウを効果的に改善することを示しており、このモジュールの有効性を示しています。ただし、ストップ ワード フィルタリングは、さまざまなサンプルの詳細キャプションにさまざまな影響を及ぼし、その結果、pcc および kendall タウがわずかに減少します。ソフトマッチングはサンプルのタウも改善し、1-R2 スコアに大きなゲイン効果をもたらし、CAPTURE 予測スコアを専門家によってスコア付けされた絶対スコアと一致させます。重み付けされた方法で最終スコアを計算する場合、obj:attr:rel のデフォルトの比率は 5:5:2 であり、各要素の比率を増減するとパフォーマンスが低下します。 V (3) オープンソース LVLM の詳細キャプションのパフォーマンス
表 4: オープンソース LVLM 詳細キャプションのパフォーマンス比較
一般的に言えば、現在のパフォーマンスはインターネットです オープンソース LVLM が最高です。 LLaVA と MiniGemini の結果から、LLM パラメーターの数を増やすと、モデルの詳細キャプション機能の向上に一貫した効果があることがわかります。同時に、解像度が高く、高品質の詳細キャプションでトレーニングされたモデルのパフォーマンスが向上します。 研究者らは、詳細キャプション評価データセットと評価指標に基づいて、提案された詳細キャプションデータ合成スキームの有効性を検証しました。 (1) 異なるLVLMにおける詳細字幕合成手法の有効性
下表に示すように、本研究で提案した詳細字幕合成手法は、LLaVA-1.5-7B、LLaVAに対して有効である。 -1.5-13B、LLAVA-Next-7B、および Mini-Gemini-7B-HD は一貫した詳細キャプションの品質向上を実現しました:
表 5: さまざまな LVLM がこの研究の詳細キャプション合成方法を使用しています
(2) 自己ループを通じて詳細キャプションのパフォーマンスをさらに向上させる
研究者らはまた、データラベリング -> モデルトレーニング -> というトレーニングプロセスを通じて自己ループを実行することで、LVLM の詳細をさらに向上させようとしました。キャプションの再ラベル付け パフォーマンスは 4 つのループすべてで良好な結果を達成しました。同時に、オープンソース ソリューション [8] とこの記事で提案されているワードレベルの幻覚フィルタリング ソリューションを比較すると、その設計の有効性が証明されます。表 6: セルフループ効果とアブレーション解析詳細キャプション合成スキーム (3) LVLM の自己マーク付き詳細キャプションは、全体的なパフォーマンスを向上させることができます
この研究では、LLaVA-1.5 を使用して、指定された詳細に従って sharegpt4v-100k データを実行しましたキャプション構築計画。LLaVA-1.5 の SFT トレーニングにマークされたデータを再マークして使用し、複数のベンチマークで一貫したパフォーマンスの向上を達成しました: 表七:LLaVA-1.5-7Bモデル训练における合成詳細キャプションデータ[1] Zhuang Li、Yuyang Chai、Terry Zhuo Yue 、Lizhen Qu、Gholamreza Haffari、Fei Li、Donghong Ji、Quan Hung Tran。事実: 忠実かつ一貫したテキスト シーン グラフ解析のベンチマーク。 arXiv:2305.17497、2023[2] Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alexander C Berg、Wan-Yen Lo、他。何でもセグメント化します。 ICCV 2023[3] マティアス・ミンデラー、アレクセイ・グリツェンコ、ニール・ホールズビー。オープン語彙オブジェクト検出のスケーリング。 NIPS 2024[4] ヒューゴ・トゥヴロン、ルイ・マーティン、ケビン・ストーン、ピーター・アルバート、アムジャド・アルマハイリ、ヤスミン・バベイ、ニコライ・バシリコフ、ソウミャ・バトラ、プラジワル・バルガヴァ、シュルティ・ボサレ、ほか。 Llama 2: オープンな基盤と微調整されたチャット モデル。 arXiv:2307.09288、2023[5] Haotian Liu、Chunyuan Li、Yuheng Li、Yong Jae Lee。視覚的な指示の調整によりベースラインが改善されました。命令チューニングと命令に関する NeurIPS 2023 ワークショップ、2023 年に続きます[6] Weihan Wang、Qingsong Lv、Wenmeng Yu、Wenyi Hon、Ji Qi、Yan Wang、Junhui Ji、Zhuoyi Yang、Lei Zhao、Xixuan Song、 Jiazheng Xu、Bin Xu、Juanzi Li、Yuxiao Dong、Ming Ding、Jie Tang。 Cogvlm: 事前トレーニング済み言語モデルのビジュアル エキスパート。 arXiv:2311.03079、2023[7] Lin Chen、Jisong Li、Xiaoyi Dong、Pan Zhang、Conghui He、Jiaqi Wang、Feng Zhao、Dahua Lin。 Sharegpt4v: より良いキャプションを備えた大規模なマルチモーダル モデルの改善。 arXiv:2311.12793、2023[8] Zhang Li、Biao Yang、Qiang Liu、Zhiyin Ma、Shuo Zhang、Jingxu Yang、Yabo Sun、Yuliang Liu、および Xiang Bai。 Monkey: 画像の解像度とテキスト ラベルは、大規模なマルチモーダル モデルにとって重要です。 arXiv:2311.06607, 2023豆包大モデル团队
字节跳躍豆包大モデル团队 2023年に成立、世界最先端のAI大モデル技術の開発に力を入れる队,科技のため豆包サイズモデルは、AI分野の長期にわたる視野で、NLP、CV、言音などの方向性を研究し、中国、新参者、アメリカなどに実験室と研究拠点を設置しています。团队依托平台十分なデータ、计算等资源、在関連領域維持投入、自研汎用大モデル提供多模态能力、下游支持豆包、扣子、即梦等 50 + 业务、并経由火山引擎开放给現在、豆包 APP はすでに中国市の最大規模の AIGC アプリケーションになっています。 以上がDoubao Big Model Team が、VLM キャプション評価の信頼性を向上させるための新しい詳細画像キャプション評価ベンチマークをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。