ホームページ ハードウェアチュートリアル ハードウェアのレビュー 4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。

Apr 23, 2024 am 08:04 AM
git composer 解決 効果 レーダー 美しい写真 香港中文大学 lab

PDF、Webページ、ポスター、Excelグラフの内容を自動分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。

Shanghai AI Lab、香港中文大学、その他の研究機関によって提案された InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを現実にします。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

解像度制限が 1500x1500 を超えない他のマルチモーダル大型モデルと比較して、この作業では、マルチモーダル大型モデルの最大入力画像が 4K (3840 x1600) 解像度を超え、あらゆる解像度をサポートします。長さと幅の比率と336ピクセル〜4Kのダイナミック解像度が変化します。

リリースから 3 日後、このモデルは、Hugging Face のビジュアル Q&A モデルの人気リストでトップになりました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

4K画像を簡単に理解

最初に効果を見てみましょう~

研究者は論文のホームページ(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)のスクリーンショットを入力しました(解像度は2550x3300です) )、どの論文のモデルが MMBench で最も高いパフォーマンスを持っているかを尋ねました。

この情報は入力スクリーンショットのテキスト部分には記載されておらず、かなり複雑なレーダー チャートにのみ表示されることに注意してください。このような難しい質問に直面しても、IXC2-4KHD はレーダー チャートの情報を理解して質問に正しく答えました。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

さらに極端な解像度の画像入力 (816 x 5133) に直面すると、IXC2-4KHD は画像が 7 つの部分で構成されていることを容易に理解し、各部分に含まれるテキスト情報の内容を正確に説明します。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

その後、研究者らは、16 個のマルチモーダル大規模モデル評価指標で IXC2-4KHD の機能を包括的にテストしました。そのうちの 5 つの評価 (DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench) は、高解像度に焦点を当てていました。モデルレートのイメージ理解能力。

わずか 7B のパラメーターを使用して、IXC2-4KHD は 10 の評価で GPT4V や Gemini Pro と同等、またはそれを上回る結果を達成し、高解像度の画像理解に限定されず、さまざまなタスクやシナリオの能力に多用途であることを実証しました。 。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△わずか 7B パラメータの IXC2-4KHD のパフォーマンスは GPT-4V や Gemini-Pro に匹敵します 4K ダイナミック解像度を実現するにはどうすればよいですか?

4K 動的解像度の目標を達成するために、IXC2-4KHD には 3 つの主要な設計が含まれています:

(1) 動的解像度トレーニング:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解像度画像処理戦略

IXC2-4KHD 内 フレームワーク内では、入力画像はアスペクト比を維持したまま、入力領域と最大領域の間の中間サイズ (55x336x336 を超えず、解像度 3840x1617 に相当) にランダムに拡大されます。

その後、画像は自動的に複数の 336x336 領域に分割され、それぞれの視覚的特徴が抽出されます。この動的解像度トレーニング戦略により、モデルはあらゆる解像度の視覚入力に適応できると同時に、高解像度トレーニング データが不十分であるという問題も補えます。

実験によると、動的解像度の上限が増加するにつれて、モデルは高解像度の画像理解タスク (InfgraphicVQA、DocVQA、TextVQA) で安定したパフォーマンスの向上を達成し、4K 解像度ではまだ上限に達しておらず、さらなる可能性を示しています。高解像度での拡大。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2) タイル レイアウト情報を追加します:

モデルが変化する動的解像度に適応できるようにするために、研究者は追加の入力としてタイル レイアウト情報を追加する必要があることを発見しました。これを達成するために、研究者らは単純な戦略を採用しました。特別な「改行」(「n」) トークンをタイルの各行の後に挿入し、タイルのレイアウトをモデルに通知します。実験によると、タイル レイアウト情報の追加は、比較的小さな変更 (HD9 はタイル領域の数が 9 を超えないことを表します) で動的解像度トレーニングにほとんど影響を与えませんが、動的 4K 解像度トレーニングに大幅なパフォーマンス向上をもたらす可能性があります。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3) 推論フェーズ中の解像度の拡張

研究者らはまた、動的解像度を使用するモデルは、タイルの最大上限を増やすことで推論フェーズ中に解像度を直接拡張でき、さらなるパフォーマンスの向上をもたらすことも発見しました。たとえば、HD16 を使用して HD9 (最大 9 ブロック) のトレーニング済みモデルを直接テストすると、InfographicVQA で最大 8% のパフォーマンスの向上が観察されます。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD は、マルチモーダル大規模モデルでサポートされる解像度を 4K レベルに引き上げます。タイルの数を増やすことでより大きな画像入力をサポートするという現在の戦略では、計算コストとメモリの制約が発生するためだと研究者は述べています。彼らは、将来的にはより高解像度のサポートを実現するためのより効率的な戦略を提案する予定です。

論文リンク:

https://arxiv.org/pdf/2404.06512.pdf

プロジェクトリンク:

https://github.com/InternLM/InternLM-XComposer

—終わり—

送信してくださいあなたの提出物を電子メールで送信してください:

ai@qbitai.com

タイトルを明記して、次の内容をお知らせください:

あなたは誰ですか、どこの出身ですか、提出物の内容

論文/プロジェクトのホームページのリンク、および連絡先情報を添付してください

私たちは(時間内に返信できるように最善を尽くします

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

ここをクリックして私をフォローし、スターを付けることを忘れないでください〜

3回のクリックで「共有」、「いいね!」、「視聴」してください

毎日会いましょう最先端の科学技術の進歩について~

以上が4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepSeekをインストールする方法 DeepSeekをインストールする方法 Feb 19, 2025 pm 05:48 PM

DeepSeekをインストールするには、Dockerコンテナ(最も便利な場合は、互換性について心配する必要はありません)を使用して、事前コンパイルパッケージ(Windowsユーザー向け)を使用してソースからコンパイル(経験豊富な開発者向け)を含む多くの方法があります。公式文書は慎重に文書化され、不必要なトラブルを避けるために完全に準備します。

DeepSeek使用のためのFAQの概要 DeepSeek使用のためのFAQの概要 Feb 19, 2025 pm 03:45 PM

Deepseekai ToolユーザーガイドとFAQ Deepseekは、強力なAIインテリジェントツールです。 FAQ:異なるアクセス方法の違い:Webバージョン、アプリバージョン、API呼び出しの間に機能に違いはありません。アプリは、Webバージョンのラッパーにすぎません。ローカル展開は蒸留モデルを使用します。これは、DeepSeek-R1のフルバージョンよりもわずかに劣っていますが、32ビットモデルには理論的には90%のフルバージョン機能があります。居酒屋とは何ですか? Sillytavernは、APIまたはOllamaを介してAIモデルを呼び出す必要があるフロントエンドインターフェイスです。壊れた制限とは何ですか

AIツールとは何ですか? AIツールとは何ですか? Nov 29, 2024 am 11:11 AM

AI ツールには、Doubao、ChatGPT、Gemini、BlenderBot などが含まれます。

Grayscale Encryption Trust Fundsとは何ですか? Grayscale Encryption Trust Fundsとは何ですか? Mar 05, 2025 pm 12:33 PM

グレイスケール投資:機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment(2013年にDigitalCurrencyGroupによって設立された)で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH(ZEC)、SOL、

トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか? Mar 04, 2025 pm 08:03 PM

トップマーケットメーカーのキャッスル証券のビットコインマーケットメーカーへの参入は、ビットコイン市場の成熟度の象徴であり、将来の資産価格設定力を競うための従来の金融勢力の重要なステップです。ブルームバーグによると、2月25日、シタデル証券は暗号通貨の流動性プロバイダーになろうとしています。同社は、Coinbaseglobal、Binanceholdings、Crypto.comが運営する取引所など、さまざまな取引所でマーケットメーカーのリストに参加することを目指していると、この問題に精通している人々は述べています。取引所によって承認されると、当社は当初、米国外にマーケットメーカーチームを設立することを計画していました。この動きは標識だけではありません

Delphi Digital:新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は? Delphi Digital:新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は? Mar 04, 2025 pm 07:00 PM

ElizaOSV2:AIのエンパワーメントAIは、補助ツールから独立したエンティティに進化しています。この記事では、ElizaOSV2の主要な革新と、AI主導の将来の経済をどのように形成するかについて説明します。 AIオートメーション:Elizaosを独立して操作することは、もともとWeb3オートメーションに焦点を当てたAIフレームワークでした。 V1バージョンを使用すると、AIはスマートコントラクトとブロックチェーンデータと対話できますが、V2バージョンは大幅なパフォーマンスの改善を実現します。単純な指示を実行する代わりに、AIはワークフローを独立して管理し、ビジネスを運営し、財務戦略を開発することができます。アーキテクチャのアップグレード:強化a

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます Mar 12, 2025 pm 01:03 PM

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model(LVLM)のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

ビットワイズ:企業はビットコインを無視された大きな傾向を購入します ビットワイズ:企業はビットコインを無視された大きな傾向を購入します Mar 05, 2025 pm 02:42 PM

毎週の観察:ビットコインを蓄えている企業 - 醸造の変化毎週のメモの見落とされがちな市場動向をよく指摘します。 MicroStrategyの動きは厳しい例です。多くの人は、「マイクロストラテジーとマイケルセイリャーはすでによく知られていますが、これは真実ですが、多くの投資家はそれを特別なケースと見なし、その背後にあるより深い市場の力を無視しています。このビューは片側です。ここ数ヶ月の予備資産としてのビットコインの採用に関する詳細な研究は、これが孤立したケースではなく、出現している主要な傾向であることを示しています。今後12〜18か月で、何百もの企業が訴訟を起こし、大量のビットコインを購入すると予測しています

See all articles