ホームページ ハードウェアチュートリアル ハードウェアのレビュー 4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

Apr 23, 2024 am 08:04 AM
git composer 解決 効果 レーダー 美しい写真 香港中文大学 lab

PDF、Webページ、ポスター、Excelグラフの内容を自動分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。

Shanghai AI Lab、香港中文大学、その他の研究機関によって提案された InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを現実にします。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

解像度制限が 1500x1500 を超えない他のマルチモーダル大型モデルと比較して、この作業では、マルチモーダル大型モデルの最大入力画像が 4K (3840 x1600) 解像度を超え、あらゆる解像度をサポートします。長さと幅の比率と336ピクセル〜4Kのダイナミック解像度が変化します。

リリースから 3 日後、このモデルは、Hugging Face のビジュアル Q&A モデルの人気リストでトップになりました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

4K画像を簡単に理解

最初に効果を見てみましょう~

研究者は論文のホームページ(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)のスクリーンショットを入力しました(解像度は2550x3300です) )、どの論文のモデルが MMBench で最も高いパフォーマンスを持っているかを尋ねました。

この情報は入力スクリーンショットのテキスト部分には記載されておらず、かなり複雑なレーダー チャートにのみ表示されることに注意してください。このような難しい質問に直面しても、IXC2-4KHD はレーダー チャートの情報を理解して質問に正しく答えました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

さらに極端な解像度の画像入力 (816 x 5133) に直面すると、IXC2-4KHD は画像が 7 つの部分で構成されていることを容易に理解し、各部分に含まれるテキスト情報の内容を正確に説明します。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

その後、研究者らは、16 個のマルチモーダル大規模モデル評価指標で IXC2-4KHD の機能を包括的にテストしました。そのうちの 5 つの評価 (DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench) は、高解像度に焦点を当てていました。モデルレートのイメージ理解能力。

わずか 7B のパラメーターを使用して、IXC2-4KHD は 10 の評価で GPT4V や Gemini Pro と同等、またはそれを上回る結果を達成し、高解像度の画像理解に限定されず、さまざまなタスクやシナリオの能力に多用途であることを実証しました。 。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△わずか 7B パラメータの IXC2-4KHD のパフォーマンスは GPT-4V や Gemini-Pro に匹敵します 4K ダイナミック解像度を実現するにはどうすればよいですか?

4K 動的解像度の目標を達成するために、IXC2-4KHD には 3 つの主要な設計が含まれています:

(1) 動的解像度トレーニング:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解像度画像処理戦略

IXC2-4KHD 内 フレームワーク内では、入力画像はアスペクト比を維持したまま、入力領域と最大領域の間の中間サイズ (55x336x336 を超えず、解像度 3840x1617 に相当) にランダムに拡大されます。

その後、画像は自動的に複数の 336x336 領域に分割され、それぞれの視覚的特徴が抽出されます。この動的解像度トレーニング戦略により、モデルはあらゆる解像度の視覚入力に適応できると同時に、高解像度トレーニング データが不十分であるという問題も補えます。

実験によると、動的解像度の上限が増加するにつれて、モデルは高解像度の画像理解タスク (InfgraphicVQA、DocVQA、TextVQA) で安定したパフォーマンスの向上を達成し、4K 解像度ではまだ上限に達しておらず、さらなる可能性を示しています。高解像度での拡大。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2) タイル レイアウト情報を追加します:

モデルが変化する動的解像度に適応できるようにするために、研究者は追加の入力としてタイル レイアウト情報を追加する必要があることを発見しました。これを達成するために、研究者らは単純な戦略を採用しました。特別な「改行」(「n」) トークンをタイルの各行の後に挿入し、タイルのレイアウトをモデルに通知します。実験によると、タイル レイアウト情報の追加は、比較的小さな変更 (HD9 はタイル領域の数が 9 を超えないことを表します) で動的解像度トレーニングにほとんど影響を与えませんが、動的 4K 解像度トレーニングに大幅なパフォーマンス向上をもたらす可能性があります。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3) 推論フェーズ中の解像度の拡張

研究者らはまた、動的解像度を使用するモデルは、タイルの最大上限を増やすことで推論フェーズ中に解像度を直接拡張でき、さらなるパフォーマンスの向上をもたらすことも発見しました。たとえば、HD16 を使用して HD9 (最大 9 ブロック) のトレーニング済みモデルを直接テストすると、InfographicVQA で最大 8% のパフォーマンスの向上が観察されます。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD は、マルチモーダル大規模モデルでサポートされる解像度を 4K レベルに引き上げます。タイルの数を増やすことでより大きな画像入力をサポートするという現在の戦略では、計算コストとメモリの制約が発生するためだと研究者は述べています。彼らは、将来的にはより高解像度のサポートを実現するためのより効率的な戦略を提案する予定です。

論文リンク:

https://arxiv.org/pdf/2404.06512.pdf

プロジェクトリンク:

https://github.com/InternLM/InternLM-XComposer

—終わり—

送信してくださいあなたの提出物を電子メールで送信してください:

ai@qbitai.com

タイトルを明記して、次の内容をお知らせください:

あなたは誰ですか、どこの出身ですか、提出物の内容

論文/プロジェクトのホームページのリンク、および連絡先情報を添付してください

私たちは(時間内に返信できるように最善を尽くします

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

ここをクリックして私をフォローし、スターを付けることを忘れないでください〜

3回のクリックで「共有」、「いいね!」、「視聴」してください

毎日会いましょう最先端の科学技術の進歩について~

以上が4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepSeekをインストールする方法 DeepSeekをインストールする方法 Feb 19, 2025 pm 05:48 PM

DeepSeekをインストールするには、Dockerコンテナ(最も便利な場合は、互換性について心配する必要はありません)を使用して、事前コンパイルパッケージ(Windowsユーザー向け)を使用してソースからコンパイル(経験豊富な開発者向け)を含む多くの方法があります。公式文書は慎重に文書化され、不必要なトラブルを避けるために完全に準備します。

DeepSeek使用のためのFAQの概要 DeepSeek使用のためのFAQの概要 Feb 19, 2025 pm 03:45 PM

Deepseekai ToolユーザーガイドとFAQ Deepseekは、強力なAIインテリジェントツールです。 FAQ:異なるアクセス方法の違い:Webバージョン、アプリバージョン、API呼び出しの間に機能に違いはありません。アプリは、Webバージョンのラッパーにすぎません。ローカル展開は蒸留モデルを使用します。これは、DeepSeek-R1のフルバージョンよりもわずかに劣っていますが、32ビットモデルには理論的には90%のフルバージョン機能があります。居酒屋とは何ですか? Sillytavernは、APIまたはOllamaを介してAIモデルを呼び出す必要があるフロントエンドインターフェイスです。壊れた制限とは何ですか

LBank Exchange に登録するにはどうすればよいですか? LBank Exchange に登録するにはどうすればよいですか? Aug 21, 2024 pm 02:20 PM

LBank に登録するには、公式 Web サイトにアクセスし、「登録」をクリックします。メールアドレスとパスワードを入力し、メールアドレスを確認します。 LBank アプリをダウンロード iOS: AppStore で「LBank」を検索します。 「LBank-DigitalAssetExchange」アプリケーションをダウンロードしてインストールします。 Android: Google Play ストアで「LBank」を検索します。 「LBank-DigitalAssetExchange」アプリケーションをダウンロードしてインストールします。

OPPO Find X8 Ultraコア構成が公開! Snapdragon 8 Gen4+ 特大バッテリー OPPO Find X8 Ultraコア構成が公開! Snapdragon 8 Gen4+ 特大バッテリー Aug 22, 2024 pm 06:54 PM

8月22日、デジタルブロガーがOPPO Find X8 Ultraのいくつかの主要な構成情報を明らかにしました。公開された内容によると、このハイエンドモデルはクアルコムの最新のSnapdragon 8Gen4モバイルプラットフォームを搭載し、6000mAhの超大容量バッテリーを搭載し、100Wの有線高速充電と50Wのワイヤレス高速充電機能をサポートします。外観デザイン 現時点では、OPPO Find X8 Ultra に関する具体的なデザイン情報はありません。しかし、OPPO Find X8の標準版の実物写真がインターネット上に公開されました。 FindX8の外観 公開された写真から判断すると、OPPO FindX8のリアカメラモジュールは、四隅にある程度の曲率を持たせた正方形のデザインを採用しており、より丸みを帯びた印象を与えています。また、本機はダイレクト方式を採用しています。

Xiaomiの100元携帯電話Redmi 14Cのデザイン仕様が明らかに、8月31日に発売される Xiaomiの100元携帯電話Redmi 14Cのデザイン仕様が明らかに、8月31日に発売される Aug 23, 2024 pm 09:31 PM

Xiaomi の Redmi ブランドは、ポートフォリオにもう 1 つの低価格携帯電話、Redmi 14C を追加する準備を進めています。このデバイスはベトナムで8月31日に発売されることが確認されています。しかし、発売に先立ち、ベトナムの小売店を通じて携帯電話の仕様が明らかになった。 Redmi14CR Redmiは新しいシリーズに新しいデザインをもたらすことが多く、Redmi14Cも例外ではありません。この携帯電話の背面には大きな円形のカメラモジュールがあり、前世代のデザインとはまったく異なります。ブルーカラーバージョンでは、グラデーションデザインを採用し、より高級感を演出しています。しかし、Redmi14Cは実際には経済的な携帯電話です。カメラ モジュールは 4 つのリングで構成され、1 つはメインの 50 メガピクセル センサーを収容し、もう 1 つは深度情報用のカメラを収容します。

AIツールとは何ですか? AIツールとは何ですか? Nov 29, 2024 am 11:11 AM

AI ツールには、Doubao、ChatGPT、Gemini、BlenderBot などが含まれます。

Grayscale Encryption Trust Fundsとは何ですか? Grayscale Encryption Trust Fundsとは何ですか? Mar 05, 2025 pm 12:33 PM

グレイスケール投資:機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment(2013年にDigitalCurrencyGroupによって設立された)で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH(ZEC)、SOL、

トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? Mar 04, 2025 pm 08:03 PM

トップマーケットメーカーのキャッスル証券のビットコインマーケットメーカーへの参入は、ビットコイン市場の成熟度の象徴であり、将来の資産価格設定力を競うための従来の金融勢力の重要なステップです。ブルームバーグによると、2月25日、シタデル証券は暗号通貨の流動性プロバイダーになろうとしています。同社は、Coinbaseglobal、Binanceholdings、Crypto.comが運営する取引所など、さまざまな取引所でマーケットメーカーのリストに参加することを目指していると、この問題に精通している人々は述べています。取引所によって承認されると、当社は当初、米国外にマーケットメーカーチームを設立することを計画していました。この動きは標識だけではありません

See all articles