画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。-AI-php.cn

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie: 香港科技大学博士課程 3 年生、Zhang Tong 教授と Zhou Xiaofang 教授に師事。 2024年にApple Scholarshipを受賞。現在の主な研究方向は、マルチモーダル大規模言語モデルとデータ中心の AI です。

Zhang Jianshu: 武漢大学の学部 3 年生。現在、Zhang Tong 教授の指導の下、研究インターンとして働いています。彼の主な研究方向は、大規模言語モデル、マルチモーダル大規模言語モデル、および継続学習です。現在、2025 年秋の博士課程入学の機会を探しています。

今日のマルチモーダル大規模モデルの開発では、モデルのパフォーマンスはトレーニングデータの品質と密接に関係しており、「データがモデルの能力のほとんどを与えている」と言えます。

この中で、画像テキストデータセットは、画像理解、テキスト生成、画像検索などの多くの分野で重要な役割を果たしています。

しかし、既存の画像記述データセットは主にネットワーククローリングと手動アノテーションから派生したものであり、不均一な品質、詳細の欠如、高い記述ノイズなどの問題があります。人間は画像の詳細な説明を提供できますが、注釈コストが高いため、その規模と実現可能性が制限されます。したがって、正確で詳細な画像記述を生成するための効率的でスケーラブルな方法が緊急に必要とされています。

上記の課題に対処するために、香港科技大学、武漢大学、浙江大学、UIUC の研究者が共同で、マルチモーダル大規模言語モデルを統合する革新的な自動化フレームワークである画像テキスト化 (IT) を提案しました。 (MLLM) とさまざまなビジュアルエキスパートモデルが連携して画像情報をテキスト化し、最終的に強力な推論機能を備えた純粋なテキストの大規模言語モデルを使用して、このテキスト化された情報を高品質の画像説明に変換します。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。

論文: 画像のテキスト化: 正確かつ詳細な画像説明を作成するための自動フレームワーク
論文アドレス: https://arxiv.org/pdf/2406.07502v1
プロジェクトアドレス: https: //github.com/sterzhang/image-textualization/

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。

は、一般的に言えば、IT 画像を使用して説明するのではなく、マルチモーダルモデルで作成された画像を使用します。、この記事の貢献には以下が含まれます:
革新的なフレームワーク: マルチモーダル大規模モデルの粗粒度の画像理解機能、ビジュアルエキスパートモデルの細粒度の認識機能を使用する画像テキスト化フレームワークを提案します。プレーンテキストの大規模言語モデルの推論機能により、詳細が豊富で明確に表現された画像の説明が自動的に生成されます。
評価ベンチマークと実験: 詳細な画像記述を評価するための複数のベンチマークが提案され、フレームワークの有効性が広範な実験を通じて検証されます。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。データセットとコードのリリース: 画像テキスト化フレームワークを活用して、大規模で高品質の画像記述データセット (IT-170K) を生成しました。将来の研究を促進するために、すべてのソースコードと生成されたデータセットを公開しました。

🎜画像テキスト化方法🎜🎜🎜画像テキスト化 (IT) フレームワークには、次の 3 つの段階が含まれます: 🎜

1. 粗粒度の画像テキスト化 (ホリスティックテキスト化): まず、マルチモーダルな大規模言語モデルを使用して、画像の参照記述を生成します。これらの記述には詳細が欠けている場合がありますが、視覚情報と言語表現を表します。イメージの基本構造が提供されます。ここでの視覚的な構造は主に、参照説明にいくつかの大きな核となるオブジェクトが含まれているという事実に反映されており、これにより後続の詳細に「アンカー」効果が提供され、追加された詳細の最終的なテキスト化された要約がより適切になります。さらに、言語表現の構造は、マルチモーダル大規模モデルに含まれる大規模なプレーンテキスト言語モデルに主に反映されており、これにより、ここで生成される参照記述が言語内で適切に整理されることが可能になります。たとえば、最初に絵が何を説明しているかを大まかに伝え、次に詳細を拡張し、最後に要約するこの説明スタイルは、人間の好みに偏っています。これにより、最終的なテキスト化された要約を、より優れた言語機能を備えたテンプレートで処理できるようになります。

2. 視覚的な詳細のテキスト化: この段階では、画像側とテキスト側から同時に詳細を抽出します。

1つ目はテキスト側です。前段階でマルチモーダル大規模モデルを使用して生成した参照記述には幻覚が含まれる可能性があるため、ここで最初に行うのは「幻覚の検出」です。まず、LLM を使用して参照記述に含まれるエンティティをキャプチャし、次に開集合検出器を使用して画像内のエンティティを照合します。エンティティが検出されない場合、そのエンティティは幻想であると判断されます。ここでは、検出された幻覚もテキスト化し、最終的なテキスト化された要約でそれらを削除します。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。

ビジュアル面では、高解像度画像でトレーニングされたさまざまなタスクのビジュアルエキスパートモデルを使用して、画像内の詳細な情報を抽出します。画像内のオブジェクトの詳細情報をテキストで表現したい場合、オブジェクトのキャプションだけでは不十分です。まず、オブジェクトのバウンディングボックスを使用してオブジェクトの左右の関係を表現します。テキストの形式。しかし、写真の中の物体は左右の情報だけでなく、前後の情報も持っています。この点に関して、最初にセグメンテーションモデルを使用してこれらのオブジェクトのマスクを抽出し、次に元の画像を深度マップに変換し、深度内の特定のオブジェクトのマスクに対応する深度スコアを計算することでテキストに深度情報を反映します。地図。この時点で、テキストを使用して、画像内の各オブジェクトのサイズ、左右の位置、コンテキストなどの詳細情報を復元できます。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。

3. テキスト化された再キャプション: 最初の 2 つの段階での画像情報のテキスト化結果と、慎重に設計された書き換えられたプロンプトを組み合わせると、プレーンテキストの大規模言語モデルは非常に優れたものになります。純粋な方法で画像情報を復元します。テキストを分析し、強力な理解力と推論機能を通じて詳細かつ正確な画像の説明を生成します。

包括的な評価と実験的検証

フレームワークの有効性を検証するために、DID-Bench (詳細画像記述ベンチマーク)、D2I-Bench (画像記述ベンチマーク)、および LIN という 3 つの評価ベンチマークを構築しました。ベンチ (言語ベンチマーク)。私たちは広範な実験を実施し、IT フレームワークによって生成された画像記述が、詳細の豊富さと正確さの点で既存の方法よりも大幅に優れていることを示しました。特に、LLaVA-7B などの当社の IT フレームワークによって生成されたデータセットでトレーニングされた MLLM は、より強力な画像記述機能を示し、幻覚現象が減少します。

DID-Bench (詳細な画像の説明ベンチマーク): 画像の説明と人間が手動でラベルを付けた詳細な画像の説明との類似性を評価するために使用されます。修正された IT-{LLaVA} および IT-{GPT4-V} 画像の説明は、修正前のものよりも詳細かつ正確であり、人間がマークした説明とより一貫していることがわかります。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。 D2I-Bench (説明から画像へのベンチマーク): ヴィンセントグラフモデルを使用して、生成された説明を画像に変換し、元の画像との類似性を比較します。ここでは、評価のために CLIP スコアと DINO スコアを選択しました。より高いスコアを達成できます。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。

画像を自動的にテキストに変換し、画像の説明がより高品質で正確になります。さらに、フレームワークによって生成されたデータを使用して訓練されたLLaVA-7Bが、より詳細で複雑な記述を生成できることをPOPEとLIN-Benchでも検証しました(右側のLIN-Bench)表の）、幻覚も軽減できます（表の左側の POPE ベンチマーク）。