8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。-AI-php.cn

ホームページ

テクノロジー周辺機器

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

PHPz

Apr 25, 2024 pm 06:16 PM

composer プロジェクト square

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、記事を投稿するか、報告用メールアドレスにご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。

最近、マルチモーダル大規模モデル (MLLM) は、テキスト中心の VQA の分野、特に GPT4V や Gemini などの複数のクローズドソースモデルで大きな進歩を遂げています。そして、いくつかの面では人間の能力を超えたパフォーマンスを実証しました。しかし、オープンソースモデルのパフォーマンスは依然としてクローズドソースモデルに比べてはるかに遅れています。最近、MonKey、LLaVAR、TG-Doc、ShareGPT4V などの多くの画期的な研究が、不十分な命令の問題に焦点を当て始めています。チューニングデータ。これらの取り組みは顕著な成果を上げていますが、画像記述データと VQA データが異なるドメインに属しており、画像コンテンツの表現の粒度や範囲に不一致があるなど、依然としていくつかの問題があります。さらに、合成データのサイズが比較的小さいため、MLLM の可能性を最大限に発揮することができません。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

論文タイトル: TextSquare: テキスト中心の視覚的命令チューニングのスケールアップ
論文アドレス: https ://arxiv.org/abs/2404.12803

これを削減するには

VQAデータ生成

スクエア戦略アプローチそれには、自問、自己回答、推論、自己評価の 4 つのステップが含まれます。 Self-Questioning は、テキストと画像の分析と理解における MLLM の機能を活用して、画像内のテキストコンテンツに関連する質問を生成します。自己応答では、CoT やフューショットなどのさまざまなプロンプト手法を使用して、これらの質問に対する回答が提供されます。 Self-Reasoning は、MLLM の強力な推論機能を使用して、モデルの背後にある推論プロセスを生成します。自己評価では、質問の妥当性、画像テキストの内容との関連性、回答の正確性を評価することで、データの品質を向上させ、偏見を軽減します。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

^{図 1 Textsquare と高度なソースおよびオープンソースモデルでは、10 個のテキストに関するベンチマークの平均ランキングが GPT4V を上回りました (ランキング 2.2 対 2.2)。 2.4)}

研究者らは、Square 法に基づいて、自然の風景、チャート、フォーム、Square-10M などのさまざまな公開ソースから大量のテキストを含む多様な画像セットを収集しました。は領収書、書籍、PPT、PDF などを使用して構築され、テキスト理解に重点を置いた MLLM である TextSquare-8B は、このデータセットに基づいてトレーニングされました。

図 1 に示すように、TextSquare-8B は複数のベンチマークで GPT4V や Gemini と同等以上の結果を達成でき、他のオープンソースモデルを大幅に上回っています。 TextSquare の実験では、VQA タスクに対する推論データのプラスの影響が検証され、幻覚を軽減しながらモデルのパフォーマンスを向上させる能力が実証されました。

さらに、大規模なデータセットを利用することで、命令調整データサイズ、学習収束損失、モデルパフォーマンスの関係が明らかになります。少量の命令調整データでも MLLM を適切にトレーニングできますが、命令調整データが拡大し続けると、モデルのパフォーマンスをさらに向上させることができ、命令微調整データとモデルの間には対応するスケーリング則も存在します。。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

^{図 2 VQA データ合成プロセス (データ生成、応答、推論を含む)、データフィルタリング}

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

^{## 図 3 1,000 万平方の画像配信と QA 配信およびその他の詳細}データ収集

データ収集戦略の主な目標は、現実世界のテキストが豊富なシナリオを広範囲にカバーすることです。この目的を達成するために、研究者らは 380 万枚のテキストが豊富な画像を収集しました。これらの画像はさまざまな特性を示します。たとえば、チャートや表は、緻密な統計情報を含むテキスト要素に焦点を当てており、PPT、スクリーンショット、および Web イメージは、テキストと強調表示された視覚情報との間の相互作用のために設計されており、画像が含まれています。自然の風景から派生した詳細で密度の高いストリートビューのテキスト。収集された画像は現実世界のテキスト要素のマッピングを形成し、テキスト中心の VQA を研究するための基礎を形成します。

データ生成

研究者は、Gemini Pro のマルチモーダル理解機能を使用して、特定のデータソースから画像を選択し、自問、自問、自問の 3 つの段階を経ます。および自己推論 VQA と推論コンテキストのペアを生成します。

自問: この段階で、Gemini Pro はこれらのプロンプトに基づいて画像の包括的な分析を実行し、意味のあるものを生成します。問題の理解に基づいた情報。一般的な MLLM のテキスト要素を理解する能力は通常、ビジュアルモデルの能力よりも弱いことを考慮して、抽出されたテキストを特殊な OCR モデルを通じてプロンプトに前処理します。
自己回答: Gemini Pro は、思考連鎖 (CoT) や少数ショットプロンプトなどのテクノロジーを使用して、質問を生成する際のコンテキスト情報を強化します。生成された回答の信頼性。
自己推論: このステージでは、答えの詳細な理由が生成され、Gemini Pro は問題と視覚的要素の間の関係についてさらに考えることが求められます。錯覚を減らし、正確な回答を向上させます。

データフィルタリング

自問、回答、推論は有効ですが、生成された画像とテキストのペアは、錯覚的なコンテンツに直面する可能性があります。質問と間違った答えを意味します。したがって、LLM の評価機能に基づいてフィルタリングルールを設計し、高品質の VQA ペアを選択します。

自己評価 ヒント Gemini Pro と他の MLLM は、生成された質問が意味があるかどうか、またその回答が問題を正しく解決するのに十分であるかどうかを判断します。
マルチプロンプトの一貫性 研究者は、生成されたコンテンツを直接評価することに加えて、データ生成時にプロンプトとコンテキスト空間を手動で追加します。正しく意味のある VQA ペアは、異なるプロンプトが提供された場合でも意味的に一貫している必要があります。
マルチコンテキストの一貫性 研究者は、質問の前にさまざまなコンテキスト情報を準備することで、VQA ペアをさらに検証しました。

#TextSquare-8B

TextSquare-8B は、CLIP ViT-L-14 のビジョンを含む、InternLM-Xcomposer2 のモデル構造を利用しています。 -336 エンコーダ、画像解像度がさらに 700 に向上、InternLM2-7B-ChatSFT に基づく大規模言語モデル LLM、ビジュアルトークンとテキストトークンを調整するブリッジプロジェクター。

TextSquare-8B のトレーニングには、SFT の 3 つのステージが含まれています。

最初のステージでは、解像度 490 のフルパラメーター (ビジョンエンコーダー、プロジェクター、LLM) を使用してモデルを微調整します。

第 2 段階では、入力解像度が 700 に増加され、ビジョンエンコーダーのみが解像度の変更に適応するようにトレーニングされます。

第 3 段階では、すべてのパラメータが解像度 700 でさらに微調整されます。

TextSquare は、Square-10M データセットに基づいて、8B パラメーターと通常サイズの画像解像度を持つモデルが、テキスト中心の VQA の効果 ( GPT4V、Gemini Pro)。

実験結果

図 4(a) は、TextSquare が単純な算術関数を備えていることを示しています。図 4(b) は、テキストの内容を理解し、密なテキスト内のおおよその位置を提供する機能を示しています。図 4(c) は、テーブル構造を理解する TextSquare の機能を示しています。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

#MLLM ベンチマーク

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

は、ドキュメントシーンの VQA ベンチマーク (DocVQA、ChartQA、InfographicVQA) で平均 3.5% の向上を達成しました。これは、すべてのオープンソースモデルよりも優れており、ChartQA データセットでは GPT4V および Gemini Pro よりわずかに高くなります。このモデルの解像度はわずか 700 で、ほとんどのドキュメント指向の MLLM よりも小さいですが、解像度がさらに向上すれば、モデルのパフォーマンスもさらに向上すると思います。Monkey はこれを証明しました。
自然シーンの VQA ベンチマーク (TextVQA、AI2D) では SOTA 効果が得られていますが、以前と比較して大きな改善はありません。ベースライン Xcomposer2 。これはおそらく、Xcomposer2 が高品質のドメイン内データを使用して完全に最適化されているためです。
テーブルシナリオの VQA ベンチマーク (WTQ、TabFact) では、結果は GPT4V と Gemini Pro をそれぞれ大きく上回り、他の SOTA を上回りましたモデルは 3% 増加します。
テキスト中心の KIE ベンチマーク KIE タスクのベンチマーク (SROIE、POIE) からテキスト中心の重要な情報を抽出し、KIE タスクを VQA タスクに変換しますどちらのデータセットでも、平均 14.8% の改善で最高のパフォーマンスが達成されました。
OCRBench テキスト認識、数式認識、テキスト中心の VQA、KIE などの 29 個の OCR 関連評価タスクが含まれており、最高のパフォーマンスを実現します。オープンソースモデル、および約10Bのパラメータボリュームが600ポイントに達する最初のモデルになります。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

##一般的な VQA および幻覚評価ベンチマーク一般的な VQA ベンチマーク (VizWiz VQAv2、GQA、TextSquare POPE) は、Xconposer2 と比べて大きな低下はなく、VisWiz および POPE で最高のパフォーマンスを維持しており、最高の方法よりも 3.6% 高く、この方法の有効性がモデルの幻覚を軽減できることがわかります。

アブレーション実験

各ベンチマークにおける TextSquare と Xcomposer2 の平均比較7.7%の増加。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

自己評価を追加した後、モデルのパフォーマンスが大幅に向上しました。

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

推論データを追加すると、パフォーマンスが大幅に向上し、幻覚の発生を減らすことができます。

データスケールと収束損失とモデルのパフォーマンスの関係

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

データスケールが増加するにつれて、モデルの損失は減少し続けます。降下速度は徐々に遅くなります。収束損失と命令スケーリングデータの間の関係は対数関数に近似します。

命令チューニングデータの増加に伴い、モデルのパフォーマンスはますます向上していますが、増加率は引き続き鈍化しており、ほぼ対数関数と一致しています。

全体として、テキスト中心の VQA シナリオでは、命令調整フェーズに対応するスケーリング則があり、モデルのパフォーマンスはデータスケーリングの対数に比例し、より大きなデータセットになる可能性のある最適化をガイドできます。モデルのパフォーマンスを構築して予測します。

概要

この論文では、研究者らは、これを使用して高品質のテキスト中心の命令チューニングデータセット (Square-10M) を構築する Square 戦略を提案しました。データセットである TextSquare-8B は、複数のベンチマークで GPT4V に匹敵するパフォーマンスを達成し、さまざまなベンチマークで最近リリースされたオープンソースモデルを大幅に上回ります。

さらに、研究者らは、命令調整データセットのサイズ、収束損失、モデルのパフォーマンスの関係を導き出し、より大きなデータセットを構築する道を切り開き、データの量と質がモデルに重要な影響を与えることを確認しました。重要なパフォーマンス。

最後に、研究者らは、データの量と質をさらに改善してオープンソースモデルと主要なモデルの間の差を縮める方法は、非常に有望な研究方向であると考えられると指摘しました。

以上が8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

作曲家とlaravelcmsをすばやく構築する方法：mki-labs/エスプレッソの実践的な経験 Apr 18, 2025 am 07:36 AM

新しいLaravelプロジェクトを開発する際に、トリッキーな問題に遭遇しました。完全に機能的で簡単なコンテンツ管理システム（CMS）を迅速に構築する方法です。私は複数のソリューションを試しましたが、複雑な構成と不便なメンテナンスのためにすべてをあきらめました。 LaravelcmsパッケージMKI-Labs/Espressoを発見するまで、インストールが簡単であるだけでなく、強力な機能と直感的な管理インターフェイスも提供し、問題を完全に解決しました。

Symfony/Consoleライブラリを使用して、効率的なコマンドラインインターフェイスを作成する実用的な経験 Apr 18, 2025 am 07:30 AM

プロジェクト開発では、毎日のタスクを簡素化したり、プロセスを自動化するためにコマンドラインツールを作成する必要があることがよくあります。ただし、美しくテストしやすいコマンドラインインターフェイスを作成するのは簡単ではありません。最近、コマンドラインツールを必要とするプロジェクトを開発しながら、この問題に遭遇しました。いくつかの調査の後、私はSymfony/Consoleライブラリを見つけました。これにより、コマンドラインインターフェイスの作成プロセスが大幅に簡素化されます。

コンポーザーを使用して依存関係注入を解きます：PSR-11コンテナインターフェイスの適用 Apr 18, 2025 am 07:39 AM

大規模なPHPプロジェクトを開発する際に、一般的ではあるが難しい問題に遭遇しました。依存関係を効果的に管理し、注入する方法です。最初は、グローバル変数と手動注入を使用しようとしましたが、これによりコードの複雑さが増加するだけでなく、簡単にエラーが発生しました。最後に、PSR-11コンテナインターフェイスを使用し、作曲家の力を使用して、この問題をうまく解決しました。

YIIフレームワークに基づくデータのバッチ処理の問題を解決するために作曲家を使用する方法 Apr 18, 2025 am 07:54 AM

YIIフレームワークプロジェクトを開発するとき、データベースから大量のデータを取得する必要がある状況に遭遇することがよくあります。適切な測定が行われない場合、すべてのデータを直接取得すると、メモリオーバーフローが発生し、プログラムのパフォーマンスに影響を与える可能性があります。最近、大規模なeコマースプラットフォームでプロジェクトを扱っていたとき、この問題に遭遇しました。いくつかの研究と試験の後、私はついにPavle/Yii-Batch-Resultの拡張ライブラリを通じて問題を解決しました。

Composerを使用してHTTP要求の問題を解決する方法：Yiche/HTTPライブラリの実用的なガイド Apr 18, 2025 am 08:06 AM

開発中、HTTP要求が必要になることがよくあります。これは、データを取得したり、データを送信したり、外部APIと対話するためです。ただし、複雑なネットワーク環境に直面してリクエスト要件を変更すると、HTTPリクエストを効率的に処理する方法が課題になります。プロジェクトで問題に遭遇しました。リクエストを異なるAPIに頻繁に送信し、リクエストを記録して、その後のデバッグと分析を促進する必要があります。いくつかの方法を試した後、Yiche/HTTPライブラリを発見しました。 HTTP要求の処理を簡素化するだけでなく、動的ロギング機能も提供し、開発効率を大幅に改善します。

SilverStripeのアクセシビリティの向上Webサイト：フライングフォーカスモジュールのインストールと使用 Apr 18, 2025 am 08:09 AM

政府のウェブサイトプロジェクトを開発するとき、私は困難な問題に遭遇しました。特に視覚障害のあるユーザーにとって、さまざまなユーザーのニーズを満たすためにウェブサイトのアクセシビリティを改善する方法は、ウェブサイトをナビゲートして運営することは非常に困難です。複数の方法を試した後、Webサイトのアクセシビリティを大幅に向上させるFlyingFocusというJavaScriptライブラリを見つけました。ただし、SilverStripeのWebサイトに統合することは課題です。幸いなことに、FlyingFocusの統合プロセスを簡素化し、パズルを解決するDia-NZ/Silverstripe-Flying-Focusモジュールを見つけました。

作曲家を使用したJavaScriptエラー処理の問題を解決する方法 Apr 18, 2025 am 08:30 AM

複雑なWebアプリケーションを開発する際には、JavaScriptエラーを効果的に処理してログインする方法を開発する際に、困難な問題を抱えています。私はいくつかの方法を試しましたが、このライブラリDvasilenko/Alterego_toolsを見つけるまで、それらのどれも私のニーズを満たすことができませんでした。このライブラリの設置を通じて、この問題を簡単に解決し、プロジェクトの保守性と安定性を大幅に改善しました。作曲家は次のアドレスを通して学ぶことができます：学習アドレス

Otrance翻訳プラットフォームの使用と代替案 Apr 18, 2025 am 08:45 AM

多くの場合、プロジェクト開発で多言語サポートが必要であり、Otranceはかつて非常に人気のあるソリューションでした。しかし、最近、Otranceプロジェクトが維持されて更新されなくなったことがわかりました。これにより、プロジェクトのニーズを満たすための新しい代替品を見つけることが余儀なくされました。幸いなことに、Composerは、代替翻訳プラットフォームを管理およびインストールする便利な方法を提供します。

See all articles

8B テキスト マルチモーダル大規模モデル インデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

8B テキストマルチモーダル大規模モデルインデックスは、Byte、Huashan、Huake が共同で提案した TextSquare に近いものです。