


4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。
PDF、Webページ、ポスター、Excelグラフの内容を自動分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。
Shanghai AI Lab、香港中文大学、その他の研究機関によって提案された InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを現実にします。
解像度制限が 1500x1500 を超えない他のマルチモーダル大型モデルと比較して、この作業では、マルチモーダル大型モデルの最大入力画像が 4K (3840 x1600) 解像度を超え、あらゆる解像度をサポートします。長さと幅の比率と336ピクセル〜4Kのダイナミック解像度が変化します。
リリースから 3 日後、このモデルは、Hugging Face のビジュアル Q&A モデルの人気リストでトップになりました。
4K画像を簡単に理解
最初に効果を見てみましょう~
研究者は論文のホームページ(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)のスクリーンショットを入力しました(解像度は2550x3300です) )、どの論文のモデルが MMBench で最も高いパフォーマンスを持っているかを尋ねました。
この情報は入力スクリーンショットのテキスト部分には記載されておらず、かなり複雑なレーダー チャートにのみ表示されることに注意してください。このような難しい質問に直面しても、IXC2-4KHD はレーダー チャートの情報を理解して質問に正しく答えました。
さらに極端な解像度の画像入力 (816 x 5133) に直面すると、IXC2-4KHD は画像が 7 つの部分で構成されていることを容易に理解し、各部分に含まれるテキスト情報の内容を正確に説明します。
その後、研究者らは、16 個のマルチモーダル大規模モデル評価指標で IXC2-4KHD の機能を包括的にテストしました。そのうちの 5 つの評価 (DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench) は、高解像度に焦点を当てていました。モデルレートのイメージ理解能力。
わずか 7B のパラメーターを使用して、IXC2-4KHD は 10 の評価で GPT4V や Gemini Pro と同等、またはそれを上回る結果を達成し、高解像度の画像理解に限定されず、さまざまなタスクやシナリオの能力に多用途であることを実証しました。 。
△わずか 7B パラメータの IXC2-4KHD のパフォーマンスは GPT-4V や Gemini-Pro に匹敵します 4K ダイナミック解像度を実現するにはどうすればよいですか?
4K 動的解像度の目標を達成するために、IXC2-4KHD には 3 つの主要な設計が含まれています:
(1) 動的解像度トレーニング:
△4K 解像度画像処理戦略
IXC2-4KHD 内 フレームワーク内では、入力画像はアスペクト比を維持したまま、入力領域と最大領域の間の中間サイズ (55x336x336 を超えず、解像度 3840x1617 に相当) にランダムに拡大されます。
その後、画像は自動的に複数の 336x336 領域に分割され、それぞれの視覚的特徴が抽出されます。この動的解像度トレーニング戦略により、モデルはあらゆる解像度の視覚入力に適応できると同時に、高解像度トレーニング データが不十分であるという問題も補えます。
実験によると、動的解像度の上限が増加するにつれて、モデルは高解像度の画像理解タスク (InfgraphicVQA、DocVQA、TextVQA) で安定したパフォーマンスの向上を達成し、4K 解像度ではまだ上限に達しておらず、さらなる可能性を示しています。高解像度での拡大。
(2) タイル レイアウト情報を追加します:
モデルが変化する動的解像度に適応できるようにするために、研究者は追加の入力としてタイル レイアウト情報を追加する必要があることを発見しました。これを達成するために、研究者らは単純な戦略を採用しました。特別な「改行」(「n」) トークンをタイルの各行の後に挿入し、タイルのレイアウトをモデルに通知します。実験によると、タイル レイアウト情報の追加は、比較的小さな変更 (HD9 はタイル領域の数が 9 を超えないことを表します) で動的解像度トレーニングにほとんど影響を与えませんが、動的 4K 解像度トレーニングに大幅なパフォーマンス向上をもたらす可能性があります。
(3) 推論フェーズ中の解像度の拡張
研究者らはまた、動的解像度を使用するモデルは、タイルの最大上限を増やすことで推論フェーズ中に解像度を直接拡張でき、さらなるパフォーマンスの向上をもたらすことも発見しました。たとえば、HD16 を使用して HD9 (最大 9 ブロック) のトレーニング済みモデルを直接テストすると、InfographicVQA で最大 8% のパフォーマンスの向上が観察されます。
以上が4K HD映像がわかりやすい!この大規模なマルチモーダル モデルは、Web ポスターのコンテンツを自動的に分析するため、作業者にとって非常に便利です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











eコマースのWebサイトを開発するとき、私は困難な問題に遭遇しました。ユーザーにパーソナライズされた製品の推奨事項を提供する方法です。当初、私はいくつかの簡単な推奨アルゴリズムを試しましたが、結果は理想的ではなく、ユーザーの満足度も影響を受けました。推奨システムの精度と効率を改善するために、より専門的なソリューションを採用することにしました。最後に、Andres-Montanez/Adcumentations Bundleを介してAndres-Montanez/Bundleをインストールしました。これは、問題を解決しただけでなく、推奨システムのパフォーマンスを大幅に改善しました。次の住所から作曲家を学ぶことができます。

Laravelは、Webアプリケーションを簡単に構築するためのPHPフレームワークです。次のような強力な機能を提供します。インストール:Laravel CLIを作曲家にグローバルにインストールし、プロジェクトディレクトリにアプリケーションを作成します。ルーティング:ルート/web.phpのURLとハンドラーの関係を定義します。ビュー:リソース/ビューでビューを作成して、アプリケーションのインターフェイスをレンダリングします。データベース統合:MySQLなどのデータベースとのすぐ外側の統合を提供し、移行を使用してテーブルを作成および変更します。モデルとコントローラー:モデルはデータベースエンティティを表し、コントローラーはHTTP要求を処理します。

記事の概要:この記事では、Laravelフレームワークを簡単にインストールする方法について読者をガイドするための詳細なステップバイステップの指示を提供します。 Laravelは、Webアプリケーションの開発プロセスを高速化する強力なPHPフレームワークです。このチュートリアルは、システム要件からデータベースの構成とルーティングの設定までのインストールプロセスをカバーしています。これらの手順に従うことにより、読者はLaravelプロジェクトのための強固な基盤を迅速かつ効率的に築くことができます。

Laravelフレームワークには、開発者のさまざまなニーズを満たすためにバージョン番号を簡単に表示するための組み込みの方法があります。この記事では、Composer Command Lineツールの使用、.ENVファイルへのアクセス、PHPコードを介したバージョン情報の取得など、これらの方法について説明します。これらの方法は、Laravelアプリケーションのバージョン化の維持と管理に不可欠です。

vProcesserazrabotkiveb-Enclosed、する、するまみ、するまで。 leavallysumballancefriablancefaumdoptomatification、čtokazalovnetakprosto、kakaožidal.posenesko

メールマーケティングキャンペーンを行う際には、HTML形式でメールを効率的に作成および送信する方法を実行する際に、トリッキーな問題が発生しています。従来のアプローチは、コードを手動で記述し、SMTPサーバーを使用して電子メールを送信することですが、これは時間がかかるだけでなく、エラーが発生しやすいことです。複数のソリューションを試した後、HTMLメールの作成と送信に役立つシンプルで使いやすいRestapiであるduwa.ioを発見しました。開発プロセスをさらに簡素化するために、Composerを使用してDuwa.ioのPHPライブラリ-CaptainDoe/Duwaをインストールおよび管理することにしました。

Laravelをインストールするには、これらの手順を順番に進みます。コンポーザー(MacOS/LinuxとWindows用)インストールLaravelインストーラーをインストールします。

Symfonyベースのアプリケーションを開発する際には、JSONデータ形式を効果的に検証する方法を開発する際に、トリッキーな問題を抱えています。最初は、手動検証コードを使用しようとしましたが、これは複雑であるだけでなく、エラーが発生しやすいものでもありました。いくつかの調査の後、私はPtyhard/Json-Schema-Bundleという作曲家パッケージを発見しました。
