ホームページ テクノロジー周辺機器 AI Doubao Big Model Team が、VLM キャプション評価の信頼性を向上させるための新しい詳細画像キャプション評価ベンチマークをリリース

Doubao Big Model Team が、VLM キャプション評価の信頼性を向上させるための新しい詳細画像キャプション評価ベンチマークをリリース

Jul 18, 2024 pm 08:10 PM
はじめる CAPTURE

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

現在の視覚言語モデル (VLM) は主に QA の質問と回答フォームを通じてパフォーマンス評価を行っていますが、言語の基本的な理解能力の評価が不足しています。モデル(詳細など) 画像キャプション パフォーマンスの信頼できる尺度。

この問題に対応して、中国科学院、北京大学、バイト豆宝ビッグモデルチームはDetailCaps-4870データセットをリリースし、オープンソースの中で最も高い専門家評価のコンセンサスを達成した効果的な評価指標CAPTUREを提案しました。低コストで GPT-Eval と同等の結果を実現します。

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

  • 論文: https://arxiv.org/abs/2405.19092
  • データセット: https://huggingface.co/datasets/foundation-multimodal-models/DetailCaps-4870
  • コード: https://github.com/foundation-multimodal-models/CAPTURE

はじめに

現在のLVLM (ラージビジョン言語モデル) 評価には次の問題があります:

  • 既存の LVLM 評価ソリューションは主に VQA 形式を採用していますが、これは指示に従う能力に大きく影響され、QA プロンプトの設計は人間のバイアスを容易に導入する可能性があります。
  • 画像キャプションタスクはモデルの理解能力を効果的に評価できますが、既存のキャプションベンチマークは主に短いキャプションをグランドトゥルースとして使用しており、これはlvlm時代には完全に時代遅れです。
  • 同時に、既存の画像キャプション評価指標は、人間や GPT などの専門家の評価結果との整合性が低く、ブルーやルージュなどのマッチングに使用される N グラムを抽出するため、感度が十分ではありません。重要な情報の正確性。 GPT-Eval は専門家による評価とより一貫性がありますが、評価コストが高くなります。

これらの問題に対応して、本研究では、低コストで LVLM 画像理解能力の正確な評価を実現するための、新しい詳細画像キャプション ベンチマークと評価指標を提案します。

この研究では、提案された評価データセットと指標の指導の下で、詳細画像キャプションに対するLVLM独自の機能を探索するデータ構築方法も調査し、詳細キャプションデータの品質を効果的に向上させました。 C 図 1: 左側はキャプチャ メトリック インスタンスの表示、右側は詳細キャプション構築方法です。この研究で提案された詳細画像キャプション ベンチマークでは、テキストの長さが長くなり、非反復の数が大幅に増加します。 -グラム、より豊富な視覚情報が含まれています:

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

表 1: DetailCaps ベンチマーク統計情報 (ex
Tracing と coUpling coRE
情報) 指標による評価は、4 つのステップを通じてキャプション品質評価を実施します。以下の図に示すように、まず Factual praser [1] を使用して詳細キャプション内のオブジェクト、属性、関係要素を抽出し、次に実質的に重要性のないオブジェクトを除外します。その後、obj、attr、rel要素の3段階のマッチング(完全一致、同義語一致、埋め込み一致)によりマッチングスコア(F1スコア)を計算し、重み付けをして最終結果とします。

>データ合成により、詳細キャプションデータの品質を効果的に向上させます。このソリューションでは、まず LVLM を使用して画像全体のキャプションを生成し、次にセグメンテーション モデル (SAM [2]) やクラスタリングなどのフィルタリング手法を使用して画像内の重要な位置を見つけ、ローカル キャプション生成用に切り出します。この記事では、キャプション内の幻覚を減らすために単語レベルのフィルタリング手法を使用しています。この手法では、まず画像内の視覚要素を説明する単語やフレーズが解析され、次にターゲット検出モデル (Owlv2 [3]) を通じてスコアの低い画像がフィルタリングされます。 ])。最後に、フィルタリングされた完全な画像キャプションとローカル キャプションが LLM (LLaMA2 [4]) に送信され、最終的な画像の説明に融合されます。
実験

CAPTURE指標豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

(1) CAPTUREと他のキャプション指標

この研究はDetailCapsにあります1 00 (参照キャプションの手動注釈、モデルの手動評価 LLaVA-1.5 [5]、CogVLM [6]、および ShareCaptioner [7] の 3 つのモデルによって生成されたキャプションは、エキスパート スコアでテストされ、各評価指標とエキスパート評価の間の一貫性が計算されます。
' ' s t------ 評価指標 専門家の評価との一貫性は、ピアソン相関 (線形相関)、R^2 (絶対値)、ケンダルのタウ (部分的) によって測定されます。順序付きペアの一貫性)、および (サンプルごとの(ケンドールの)タウ(サンプルごとに個別に計算される)平均)指標が測定されます。

結果は、CAPTURE がさまざまな指標において最高の専門家評価の一貫性を達成していることを示しています。これらの指標の中で、Sample tau の計算方法は実際の詳細画像キャプションの評価に最も近く、この指標に関して GPT4-Eval に近い唯一の方法でもあり、評価の精度とコストのバランスが取れています。

(2) アブレーション解析
研究者らはまた、CAPTURE の各モジュールに対してアブレーション解析を実施し、その有効性を検証しました:
表 3: CAPTURE
の各モジュールのアブレーション解析
実験結果は、ストップワードがサンプルタウを効果的に改善することを示しており、このモジュールの有効性を示しています。ただし、ストップ ワード フィルタリングは、さまざまなサンプルの詳細キャプションにさまざまな影響を及ぼし、その結果、pcc および kendall タウがわずかに減少します。ソフトマッチングはサンプルのタウも改善し、1-R2 スコアに大きなゲイン効果をもたらし、CAPTURE 予測スコアを専門家によってスコア付けされた絶対スコアと一致させます。重み付けされた方法で最終スコアを計算する場合、obj:attr:rel のデフォルトの比率は 5:5:2 であり、各要素の比率を増減するとパフォーマンスが低下します。 V (3) オープンソース LVLM の詳細キャプションのパフォーマンス

表 4: オープンソース LVLM 詳細キャプションのパフォーマンス比較

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

一般的に言えば、現在のパフォーマンスはインターネットです オープンソース LVLM が最高です。 LLaVA と MiniGemini の結果から、LLM パラメーターの数を増やすと、モデルの詳細キャプション機能の向上に一貫した効果があることがわかります。同時に、解像度が高く、高品質の詳細キャプションでトレーニングされたモデルのパフォーマンスが向上します。

詳細キャプションデータ構造

研究者らは、詳細キャプション評価データセットと評価指標に基づいて、提案された詳細キャプションデータ合成スキームの有効性を検証しました。
(1) 異なるLVLMにおける詳細字幕合成手法の有効性
下表に示すように、本研究で提案した詳細字幕合成手法は、LLaVA-1.5-7B、LLaVAに対して有効である。 -1.5-13B、LLAVA-Next-7B、および Mini-Gemini-7B-HD は一貫した詳細キャプションの品質向上を実現しました:

表 5: さまざまな LVLM がこの研究の詳細キャプション合成方法を使用しています

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

(2) 自己ループを通じて詳細キャプションのパフォーマンスをさらに向上させる

研究者らはまた、データラベリング -> モデルトレーニング -> というトレーニングプロセスを通じて自己ループを実行することで、LVLM の詳細をさらに向上させようとしました。キャプションの再ラベル付け パフォーマンスは 4 つのループすべてで良好な結果を達成しました。同時に、オープンソース ソリューション [8] とこの記事で提案されているワードレベルの幻覚フィルタリング ソリューションを比較すると、その設計の有効性が証明されます。表 6: セルフループ効果とアブレーション解析詳細キャプション合成スキーム

(3) LVLM の自己マーク付き詳細キャプションは、全体的なパフォーマンスを向上させることができます

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

この研究では、LLaVA-1.5 を使用して、指定された詳細に従って sharegpt4v-100k データを実行しましたキャプション構築計画。LLaVA-1.5 の SFT トレーニングにマークされたデータを再マークして使用し、複数のベンチマークで一貫したパフォーマンスの向上を達成しました:
表七:LLaVA-1.5-7Bモデル训练における合成詳細キャプションデータ

参考
[1] Zhuang Li、Yuyang Chai、Terry Zhuo Yue 、Lizhen Qu、Gholamreza Haffari、Fei Li、Donghong Ji、Quan Hung Tran。事実: 忠実かつ一貫したテキスト シーン グラフ解析のベンチマーク。 arXiv:2305.17497、2023
[2] Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alexander C Berg、Wan-Yen Lo、他。何でもセグメント化します。 ICCV 2023
[3] マティアス・ミンデラー、アレクセイ・グリツェンコ、ニール・ホールズビー。オープン語彙オブジェクト検出のスケーリング。 NIPS 2024
[4] ヒューゴ・トゥヴロン、ルイ・マーティン、ケビン・ストーン、ピーター・アルバート、アムジャド・アルマハイリ、ヤスミン・バベイ、ニコライ・バシリコフ、ソウミャ・バトラ、プラジワル・バルガヴァ、シュルティ・ボサレ、ほか。 Llama 2: オープンな基盤と微調整されたチャット モデル。 arXiv:2307.09288、2023
[5] Haotian Liu、Chunyuan Li、Yuheng Li、Yong Jae Lee。視覚的な指示の調整によりベースラインが改善されました。命令チューニングと命令に関する NeurIPS 2023 ワークショップ、2023 年に続きます
[6] Weihan Wang、Qingsong Lv、Wenmeng Yu、Wenyi Hon、Ji Qi、Yan Wang、Junhui Ji、Zhuoyi Yang、Lei Zhao、Xixuan Song、 Jiazheng Xu、Bin Xu、Juanzi Li、Yuxiao Dong、Ming Ding、Jie Tang。 Cogvlm: 事前トレーニング済み言語モデルのビジュアル エキスパート。 arXiv:2311.03079、2023
[7] Lin Chen、Jisong Li、Xiaoyi Dong、Pan Zhang、Conghui He、Jiaqi Wang、Feng Zhao、Dahua Lin。 Sharegpt4v: より良いキャプションを備えた大規模なマルチモーダル モデルの改善。 arXiv:2311.12793、2023
[8] Zhang Li、Biao Yang、Qiang Liu、Zhiyin Ma、Shuo Zhang、Jingxu Yang、Yabo Sun、Yuliang Liu、および Xiang Bai。 Monkey: 画像の解像度とテキスト ラベルは、大規模なマルチモーダル モデルにとって重要です。 arXiv:2311.06607, 2023

豆包大モデル团队

字节跳躍豆包大モデル团队 2023年に成立、世界最先端のAI大モデル技術の開発に力を入れる队,科技のため

豆包サイズモデルは、AI分野の長期にわたる視野で、NLP、CV、言音などの方向性を研究し、中国、新参者、アメリカなどに実験室と研究拠点を設置しています。团队依托平台十分なデータ、计算等资源、在関連領域維持投入、自研汎用大モデル提供多模态能力、下游支持豆包、扣子、即梦等 50 + 业务、并経由火山引擎开放给現在、豆包 APP はすでに中国市の最大規模の AIGC アプリケーションになっています。

以上がDoubao Big Model Team が、VLM キャプション評価の信頼性を向上させるための新しい詳細画像キャプション評価ベンチマークをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

パデュー大学による、時間をかける価値のある拡散モデルのチュートリアル パデュー大学による、時間をかける価値のある拡散モデルのチュートリアル Apr 07, 2024 am 09:01 AM

拡散はより良いものを模倣するだけでなく、「創造」することもできます。拡散モデル(DiffusionModel)は、画像生成モデルである。 AI 分野でよく知られている GAN や VAE などのアルゴリズムと比較すると、拡散モデルは異なるアプローチを採用しており、その主な考え方は、最初に画像にノイズを追加し、その後徐々にノイズを除去するプロセスです。ノイズを除去して元の画像を復元する方法は、アルゴリズムの中核部分です。最後のアルゴリズムは、ランダムなノイズを含む画像から画像を生成できます。近年、生成 AI の驚異的な成長により、テキストから画像への生成、ビデオ生成など、多くのエキサイティングなアプリケーションが可能になりました。これらの生成ツールの背後にある基本原理は、以前の方法の制限を克服する特別なサンプリング メカニズムである拡散の概念です。

ワンクリックでPPTを生成!キミ: まずは「PPT出稼ぎ労働者」を普及させましょう ワンクリックでPPTを生成!キミ: まずは「PPT出稼ぎ労働者」を普及させましょう Aug 01, 2024 pm 03:28 PM

キミ: たった 1 文の PPT がわずか 10 秒で完成します。 PPTはとても面倒です!会議を開催するには PPT が必要であり、週次報告書を作成するには PPT が必要であり、投資を勧誘するには PPT を提示する必要があり、不正行為を告発するには PPT を送信する必要があります。大学は、PPT 専攻を勉強するようなものです。授業中に PPT を見て、授業後に PPT を行います。おそらく、デニス オースティンが 37 年前に PPT を発明したとき、PPT がこれほど普及する日が来るとは予想していなかったでしょう。 PPT 作成の大変な経験を話すと涙が出ます。 「20 ページを超える PPT を作成するのに 3 か月かかり、何十回も修正しました。PPT を見ると吐きそうになりました。」 「ピーク時には 1 日に 5 枚の PPT を作成し、息をすることさえありました。」 PPTでした。」 即席の会議をするなら、そうすべきです

CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した Jun 20, 2024 pm 05:43 PM

北京時間6月20日早朝、シアトルで開催されている最高の国際コンピュータビジョンカンファレンス「CVPR2024」が、最優秀論文やその他の賞を正式に発表した。今年は、最優秀論文 2 件と学生優秀論文 2 件を含む合計 10 件の論文が賞を受賞しました。また、最優秀論文ノミネートも 2 件、学生優秀論文ノミネートも 4 件ありました。コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が集まります。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。ジョージア工科大学による CVPR2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成です (Imageandvideosyn

ベアメタルから 700 億のパラメータを備えた大規模モデルまで、チュートリアルとすぐに使えるスクリプトがここにあります ベアメタルから 700 億のパラメータを備えた大規模モデルまで、チュートリアルとすぐに使えるスクリプトがここにあります Jul 24, 2024 pm 08:13 PM

LLM が大量のデータを使用して大規模なコンピューター クラスターでトレーニングされていることはわかっています。このサイトでは、LLM トレーニング プロセスを支援および改善するために使用される多くの方法とテクノロジが紹介されています。今日、私たちが共有したいのは、基礎となるテクノロジーを深く掘り下げ、オペレーティング システムさえ持たない大量の「ベア メタル」を LLM のトレーニング用のコンピューター クラスターに変える方法を紹介する記事です。この記事は、機械がどのように考えるかを理解することで一般的な知能の実現に努めている AI スタートアップ企業 Imbue によるものです。もちろん、オペレーティング システムを持たない大量の「ベア メタル」を LLM をトレーニングするためのコンピューター クラスターに変換することは、探索と試行錯誤に満ちた簡単なプロセスではありませんが、Imbue は最終的に 700 億のパラメータを備えた LLM のトレーニングに成功しました。プロセスが蓄積する

C言語学習を始めるためのプログラミングソフト5選 C言語学習を始めるためのプログラミングソフト5選 Feb 19, 2024 pm 04:51 PM

C言語は広く使われているプログラミング言語であり、コンピュータプログラミングを志す人にとって必ず学ばなければならない基本的な言語の一つです。ただし、初心者にとって、特に関連する学習ツールや教材が不足しているため、新しいプログラミング言語を学習するのは難しい場合があります。この記事では、C言語初心者がすぐに始められるプログラミングソフトを5つ紹介します。最初のプログラミング ソフトウェアは Code::Blocks でした。 Code::Blocks は、無料のオープンソース統合開発環境 (IDE) です。

PyCharm Community Edition インストール ガイド: すべての手順をすばやくマスターする PyCharm Community Edition インストール ガイド: すべての手順をすばやくマスターする Jan 27, 2024 am 09:10 AM

PyCharm コミュニティ版のクイック スタート: 詳細なインストール チュートリアル 完全な分析 はじめに: PyCharm は、開発者が Python コードをより効率的に作成できるようにする包括的なツール セットを提供する強力な Python 統合開発環境 (IDE) です。この記事では、PyCharm Community Edition のインストール方法を詳しく紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。ステップ 1: PyCharm Community Edition をダウンロードしてインストールする PyCharm を使用するには、まず公式 Web サイトからダウンロードする必要があります

AIの活用 | AIが一人暮らしの女の子の生活ビデオブログを作成、3日間で数万件の「いいね!」を獲得 AIの活用 | AIが一人暮らしの女の子の生活ビデオブログを作成、3日間で数万件の「いいね!」を獲得 Aug 07, 2024 pm 10:53 PM

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。ビデオリンク: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 最近、Xiaohongshu で一人暮らしの女の子の生活 vlog が人気になりました。イラスト風のアニメーションといくつかの癒しの言葉を組み合わせれば、数日で簡単に習得できます。

技術初心者必読:C言語とPythonの難易度分析 技術初心者必読:C言語とPythonの難易度分析 Mar 22, 2024 am 10:21 AM

タイトル: 技術初心者必読: 具体的なコード例を必要とする C 言語と Python の難易度分析 今日のデジタル時代において、プログラミング技術はますます重要な能力となっています。ソフトウェア開発、データ分析、人工知能などの分野で働きたい場合でも、単に興味があってプログラミングを学びたい場合でも、適切なプログラミング言語を選択することが最初のステップです。数あるプログラミング言語の中でも、C言語とPythonは広く使われているプログラミング言語であり、それぞれに独自の特徴があります。この記事ではC言語とPythonの難易度を分析します。

See all articles