ホームページ ハードウェアチュートリアル ハードウェアのレビュー 4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

Apr 23, 2024 am 08:04 AM
git composer 解決 効果 レーダー 美しい写真 香港中文大学 lab

PDF、Webページ、ポスター、Excelグラフの内容を自動分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。

Shanghai AI Lab、香港中文大学、その他の研究機関によって提案された InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを現実にします。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

解像度制限が 1500x1500 を超えない他のマルチモーダル大型モデルと比較して、この作業では、マルチモーダル大型モデルの最大入力画像が 4K (3840 x1600) 解像度を超え、あらゆる解像度をサポートします。長さと幅の比率と336ピクセル〜4Kのダイナミック解像度が変化します。

リリースから 3 日後、このモデルは、Hugging Face のビジュアル Q&A モデルの人気リストでトップになりました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

4K画像を簡単に理解

最初に効果を見てみましょう~

研究者は論文のホームページ(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)のスクリーンショットを入力しました(解像度は2550x3300です) )、どの論文のモデルが MMBench で最も高いパフォーマンスを持っているかを尋ねました。

この情報は入力スクリーンショットのテキスト部分には記載されておらず、かなり複雑なレーダー チャートにのみ表示されることに注意してください。このような難しい質問に直面しても、IXC2-4KHD はレーダー チャートの情報を理解して質問に正しく答えました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

さらに極端な解像度の画像入力 (816 x 5133) に直面すると、IXC2-4KHD は画像が 7 つの部分で構成されていることを容易に理解し、各部分に含まれるテキスト情報の内容を正確に説明します。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

その後、研究者らは、16 個のマルチモーダル大規模モデル評価指標で IXC2-4KHD の機能を包括的にテストしました。そのうちの 5 つの評価 (DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench) は、高解像度に焦点を当てていました。モデルレートのイメージ理解能力。

わずか 7B のパラメーターを使用して、IXC2-4KHD は 10 の評価で GPT4V や Gemini Pro と同等、またはそれを上回る結果を達成し、高解像度の画像理解に限定されず、さまざまなタスクやシナリオの能力に多用途であることを実証しました。 。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△わずか 7B パラメータの IXC2-4KHD のパフォーマンスは GPT-4V や Gemini-Pro に匹敵します 4K ダイナミック解像度を実現するにはどうすればよいですか?

4K 動的解像度の目標を達成するために、IXC2-4KHD には 3 つの主要な設計が含まれています:

(1) 動的解像度トレーニング:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解像度画像処理戦略

IXC2-4KHD 内 フレームワーク内では、入力画像はアスペクト比を維持したまま、入力領域と最大領域の間の中間サイズ (55x336x336 を超えず、解像度 3840x1617 に相当) にランダムに拡大されます。

その後、画像は自動的に複数の 336x336 領域に分割され、それぞれの視覚的特徴が抽出されます。この動的解像度トレーニング戦略により、モデルはあらゆる解像度の視覚入力に適応できると同時に、高解像度トレーニング データが不十分であるという問題も補えます。

実験によると、動的解像度の上限が増加するにつれて、モデルは高解像度の画像理解タスク (InfgraphicVQA、DocVQA、TextVQA) で安定したパフォーマンスの向上を達成し、4K 解像度ではまだ上限に達しておらず、さらなる可能性を示しています。高解像度での拡大。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2) タイル レイアウト情報を追加します:

モデルが変化する動的解像度に適応できるようにするために、研究者は追加の入力としてタイル レイアウト情報を追加する必要があることを発見しました。これを達成するために、研究者らは単純な戦略を採用しました。特別な「改行」(「n」) トークンをタイルの各行の後に挿入し、タイルのレイアウトをモデルに通知します。実験によると、タイル レイアウト情報の追加は、比較的小さな変更 (HD9 はタイル領域の数が 9 を超えないことを表します) で動的解像度トレーニングにほとんど影響を与えませんが、動的 4K 解像度トレーニングに大幅なパフォーマンス向上をもたらす可能性があります。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3) 推論フェーズ中の解像度の拡張

研究者らはまた、動的解像度を使用するモデルは、タイルの最大上限を増やすことで推論フェーズ中に解像度を直接拡張でき、さらなるパフォーマンスの向上をもたらすことも発見しました。たとえば、HD16 を使用して HD9 (最大 9 ブロック) のトレーニング済みモデルを直接テストすると、InfographicVQA で最大 8% のパフォーマンスの向上が観察されます。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD は、マルチモーダル大規模モデルでサポートされる解像度を 4K レベルに引き上げます。タイルの数を増やすことでより大きな画像入力をサポートするという現在の戦略では、計算コストとメモリの制約が発生するためだと研究者は述べています。彼らは、将来的にはより高解像度のサポートを実現するためのより効率的な戦略を提案する予定です。

論文リンク:

https://arxiv.org/pdf/2404.06512.pdf

プロジェクトリンク:

https://github.com/InternLM/InternLM-XComposer

—終わり—

送信してくださいあなたの提出物を電子メールで送信してください:

ai@qbitai.com

タイトルを明記して、次の内容をお知らせください:

あなたは誰ですか、どこの出身ですか、提出物の内容

論文/プロジェクトのホームページのリンク、および連絡先情報を添付してください

私たちは(時間内に返信できるように最善を尽くします

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

ここをクリックして私をフォローし、スターを付けることを忘れないでください〜

3回のクリックで「共有」、「いいね!」、「視聴」してください

毎日会いましょう最先端の科学技術の進歩について~

以上が4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

作曲家を使用して、推奨システムのジレンマを解決する:Andres-Montanez/推奨 作曲家を使用して、推奨システムのジレンマを解決する:Andres-Montanez/推奨 Apr 18, 2025 am 11:48 AM

eコマースのWebサイトを開発するとき、私は困難な問題に遭遇しました。ユーザーにパーソナライズされた製品の推奨事項を提供する方法です。当初、私はいくつかの簡単な推奨アルゴリズムを試しましたが、結果は理想的ではなく、ユーザーの満足度も影響を受けました。推奨システムの精度と効率を改善するために、より専門的なソリューションを採用することにしました。最後に、Andres-Montanez/Adcumentations Bundleを介してAndres-Montanez/Bundleをインストールしました。これは、問題を解決しただけでなく、推奨システムのパフォーマンスを大幅に改善しました。次の住所から作曲家を学ぶことができます。

Laravelは紹介例 Laravelは紹介例 Apr 18, 2025 pm 12:45 PM

Laravelは、Webアプリケーションを簡単に構築するためのPHPフレームワークです。次のような強力な機能を提供します。インストール:Laravel CLIを作曲家にグローバルにインストールし、プロジェクトディレクトリにアプリケーションを作成します。ルーティング:ルート/web.phpのURLとハンドラーの関係を定義します。ビュー:リソース/ビューでビューを作成して、アプリケーションのインターフェイスをレンダリングします。データベース統合:MySQLなどのデータベースとのすぐ外側の統合を提供し、移行を使用してテーブルを作成および変更します。モデルとコントローラー:モデルはデータベースエンティティを表し、コントローラーはHTTP要求を処理します。

Laravel Frameworkインストール方法 Laravel Frameworkインストール方法 Apr 18, 2025 pm 12:54 PM

記事の概要:この記事では、Laravelフレームワークを簡単にインストールする方法について読者をガイドするための詳細なステップバイステップの指示を提供します。 Laravelは、Webアプリケーションの開発プロセスを高速化する強力なPHPフレームワークです。このチュートリアルは、システム要件からデータベースの構成とルーティングの設定までのインストールプロセスをカバーしています。これらの手順に従うことにより、読者はLaravelプロジェクトのための強固な基盤を迅速かつ効率的に築くことができます。

Laravelのバージョン番号を表示する方法は? Laravelのバージョン番号を表示する方法 Laravelのバージョン番号を表示する方法は? Laravelのバージョン番号を表示する方法 Apr 18, 2025 pm 01:00 PM

Laravelフレームワークには、開発者のさまざまなニーズを満たすためにバージョン番号を簡単に表示するための組み込みの方法があります。この記事では、Composer Command Lineツールの使用、.ENVファイルへのアクセス、PHPコードを介したバージョン情報の取得など、これらの方法について説明します。これらの方法は、Laravelアプリケーションのバージョン化の維持と管理に不可欠です。

DICR/YII2-GOOGLEを使用して、Yii2にGoogle APIを統合します DICR/YII2-GOOGLEを使用して、Yii2にGoogle APIを統合します Apr 18, 2025 am 11:54 AM

vProcesserazrabotkiveb-Enclosed、する、するまみ、するまで。 leavallysumballancefriablancefaumdoptomatification、čtokazalovnetakprosto、kakaožidal.posenesko

作曲家との電子メールマーケティングを簡素化する方法:duwa.ioのアプリケーションプラクティス 作曲家との電子メールマーケティングを簡素化する方法:duwa.ioのアプリケーションプラクティス Apr 18, 2025 am 11:27 AM

メールマーケティングキャンペーンを行う際には、HTML形式でメールを効率的に作成および送信する方法を実行する際に、トリッキーな問題が発生しています。従来のアプローチは、コードを手動で記述し、SMTPサーバーを使用して電子メールを送信することですが、これは時間がかかるだけでなく、エラーが発生しやすいことです。複数のソリューションを試した後、HTMLメールの作成と送信に役立つシンプルで使いやすいRestapiであるduwa.ioを発見しました。開発プロセスをさらに簡素化するために、Composerを使用してDuwa.ioのPHPライブラリ-CaptainDoe/Duwaをインストールおよび管理することにしました。

Laravelインストールコード Laravelインストールコード Apr 18, 2025 pm 12:30 PM

Laravelをインストールするには、これらの手順を順番に進みます。コンポーザー(MacOS/LinuxとWindows用)インストールLaravelインストーラーをインストールします。

作曲家を使用してJSONスキーマの検証の問題を解決する方法 作曲家を使用してJSONスキーマの検証の問題を解決する方法 Apr 18, 2025 am 11:51 AM

Symfonyベースのアプリケーションを開発する際には、JSONデータ形式を効果的に検証する方法を開発する際に、トリッキーな問題を抱えています。最初は、手動検証コードを使用しようとしましたが、これは複雑であるだけでなく、エラーが発生しやすいものでもありました。いくつかの調査の後、私はPtyhard/Json-Schema-Bundleという作曲家パッケージを発見しました。

See all articles