目次
九天JiuTian-LION
ホームページ テクノロジー周辺機器 AI 13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

Dec 04, 2023 pm 02:14 PM
ai 電車

マルチモーダル大規模言語モデルにおける視覚情報の抽出が不十分であるという問題に対処するために、ハルビン工業大学 (深セン) の研究者は、二重層の知識を強化したマルチモーダル大規模言語モデルを提案しました。 JiuTian-ライオン)。

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

書き直す必要がある内容は次のとおりです: 論文リンク: https://arxiv.org/abs/2311.11860

GitHub: https://github.com/rshaojimmy/JiuTian

プロジェクト ホームページ: https://rshaojimmy.github.io/Projects/JiuTian-LION

既存の研究と比較して、Jutian は画像レベルの理解タスクと地域レベルの位置決めタスクの間の内部矛盾を初めて分析し、セグメント化された命令の微調整戦略とハイブリッドを提案しました。タスクの相互推進を両立するアダプタ。

きめ細かい空間認識と高レベルの意味論的な視覚知識を注入することにより、Jutian は、画像の説明、視覚的な問題、視覚的なローカライゼーションを含む 17 の視覚言語タスクで大幅なパフォーマンスの向上を達成しました。たとえば、視覚的空間推論では最大 5% のパフォーマンス向上が見られ、13 の評価タスクにおいて国際トップレベルに達しています。パフォーマンスの比較を図 1 に示します。

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

図 1: 他の MLLM と比較して、Juitian はほとんどのタスクで最適なパフォーマンスを達成しました。

九天JiuTian-LION

大規模言語モデル (LLM) にマルチモーダル認識機能を提供することで、マルチモーダル大規模言語モデル (MLLM) を生成する取り組みが始まりました。多くの視覚言語タスクにおいて画期的な進歩を遂げました。ただし、既存の MLLM は主に、CLIP-ViT

などの画像とテキストのペアで事前トレーニングされたビジュアル エンコーダを使用します。これらのビジュアル エンコーダの主なタスクは、粗粒度の画像を学習することです。テキストモダリティは調整されていますが、詳細な視覚的理解を実現するための包括的な視覚認識と情報抽出機能が欠けています

この視覚情報の抽出と理解は、ほとんどの場合不十分です。図 2

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

#に示すように、問題が不十分であると、視覚的位置特定バイアス、不十分な空間推論、物体の幻覚など、MLLM に複数の欠陥が発生します。図 2: JiuTian-LION は、二重層の視覚的知識で強化されたマルチモーダル大規模言語モデルです

JiuTian-LION を既存のマルチモーダル大規模言語モデル (MLLM) と比較します。きめの細かい空間認識の視覚的知識と高レベルの意味論的な視覚的証拠を注入することにより、MLLM の視覚理解能力を効果的に向上させ、より正確なテキスト応答を生成し、MLLM の幻覚現象を軽減します

二重層視覚知識強化マルチモーダル大規模言語モデル-JiuTian-LION

視覚情報の抽出と理解における MLLM の問題を解決するにはこの側面の欠点を解決するために、研究者らは、JiuTian-LION と呼ばれる 2 層の視覚的知識を強化した MLLM 手法を提案しました。具体的な手法のフレームワークを図 3 に示します。

この手法は、主に 2 つの側面から MLLM を強化し、きめの細かい空間認識視覚知識を段階的に統合します (きめの細かい空間認識の漸進的組み込み)視覚的な知識)と、ソフト プロンプトの下での高レベルのセマンティックな視覚的証拠のソフト プロンプト。

具体的には、研究者らは、画像レベルの理解タスクと領域レベルの位置特定タスクの間の内部矛盾を解決するために、セグメント化された命令の微調整戦略を提案しました。彼らは、MLLM に粒度の細かい空間認識の知識を徐々に注入します。同時に、高レベルの意味論的な視覚的証拠として画像ラベルを MLLM に追加し、ソフト ヒンティング手法を使用して、誤ったラベルによる潜在的な悪影響を軽減しました。 九天(JiuTian-LION) モデルのフレームワーク図は次のとおりです:

この作業では、セグメント化されたトレーニング戦略を使用して、まず Q-Former および Vision Aggregator-MLP ブランチに基づいてそれぞれ画像レベルの理解と地域レベルの測位タスクを学習し、次に、ルーティング メカニズムを備えたハイブリッド アダプターを利用します。最終トレーニング段階 2 つのタスクに関する知識向上モデルのさまざまなブランチのパフォーマンスを動的に統合します。

#この研究では、RAM を介して高レベルのセマンティックな視覚的証拠として画像タグも抽出し、高レベルのセマンティック インジェクションの効果を向上させるためのソフト プロンプト手法を提案します

きめ細かい空間認識視覚知識の漸進的融合

画像レベルの理解タスク (画像の説明と視覚的な質問を含む) を直接組み合わせる場合単一ステージのハイブリッド トレーニングを実行する場合、MLLM は 2 つのタスク間で内部矛盾に遭遇するため、すべてのタスクで全体的に良好なパフォーマンスを達成することはできません。

研究者らは、この内部対立は主に 2 つの問題によって引き起こされていると考えています。最初の問題は、地域レベルのモーダル アライメントの事前トレーニングが不足していることです。現在、地域レベルの測位機能を持つほとんどの MLLM は、まず事前トレーニングに大量の関連データを使用します。そうでない場合は、画像レベルの測位機能を使用することが困難になります。限られたトレーニングリソースに基づいたモーダルアライメント 地域レベルのタスクへの視覚的特徴の適応。

もう 1 つの問題は、画像レベルの理解タスクと領域レベルの位置特定タスクの間の入出力パターンの違いです。後者では、モデルがオブジェクトの座標に関する特定の短い文をさらに理解する必要があります ( 13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース形式で始まります)。上記の問題を解決するために、研究者らは、セグメント化された命令の微調整戦略とルーティング機構を備えたハイブリッドアダプターを提案しました。

図 4 に示すように、研究者は 1 段階の命令微調整プロセスを 3 つの段階に分割しました。

ViT、Q を使用- グローバルな視覚知識の画像レベルの理解タスクを学習するための元および画像レベルのアダプター; ビジョン アグリゲーター、MLP、および地域レベルのアダプターを使用して、きめの細かい空間認識視覚知識の地域レベルの位置決めタスクを学習する; ハイブリッドを提案する異なるブランチを動的に統合するためのルーティング メカニズムを備えたアダプター さまざまな粒度で学習された視覚的な知識。表 3 は、単一ステージのトレーニングに対するセグメント化された命令の微調整戦略のパフォーマンス上の利点を示しています。

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

図 4: セグメント化された命令の微調整戦略


13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

ソフト プロンプトの下で挿入される高レベルのセマンティックな視覚的証拠については、書き換えが必要です

#研究者らは、MLLM の全体的な視覚認識の理解能力をさらに強化するために、高レベルの意味論的な視覚的証拠を効果的に補足するものとして画像ラベルを使用することを提案しています。 #Specific たとえば、最初に RAM を介してイメージ タグを抽出し、次に特定のコマンド テンプレート「

に従って、次のタグの使用または部分的な使用が許可されています:」を使用してイメージ タグをラップします。コマンド テンプレートの「」は、学習可能なソフト プロンプト ベクトルに置き換えられます。

テンプレート内の特定のフレーズ「使用または部分的に使用」と組み合わせると、ソフト ヒント ベクトルは、誤ったラベルによる潜在的な悪影響を軽減するようにモデルをガイドできます。 実験結果

研究者らは、画像キャプション (画像キャプション)、視覚的質問応答 (VQA)、および有向表現理解 (REC) を組み込みました。 17 のタスク ベンチマーク セットで評価されました。

実験結果は、Juiutian が 13 の評価セットで国際トップレベルに到達したことを示しています。特に、InstructBLIP や Shikra と比較して、Jutian は画像レベルの理解タスクと領域レベルの位置決めタスクでそれぞれ包括的かつ一貫したパフォーマンスの向上を達成しており、視覚空間推論 (VSR) タスクでは最大 5% の向上を達成できます。

図 5 からわかるように、さまざまな視覚言語マルチモーダル タスクにおける Jiutian と他の MLLM の能力には差があり、きめ細かい視覚的理解と視空間推論能力において Jiutian の方が優れていることがわかります。また、錯覚を少なくしてテキスト応答を出力できるようになります。

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

#書き換えられた内容は次のとおりです。 5 番目の図は、9 日間の大規模モデルへの応答を示しています。 InstructBLIP と Shikra の能力差の定性分析

図 6 は、サンプル分析を通じて、Juitian モデルが画像レベルと地域レベルの両方の視覚言語タスクにおいて優れた理解および認識能力を備えていることを示しています。

13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリース

6 番目の図: より多くの例の分析を通じて、画像と地域レベルの視覚的な観点から Jiutian 大型モデルの機能が実証されています。理解

#概要

(1) この研究は、新しいマルチモーダル大規模言語モデル - Jiutian: 二重層の視覚的知識によって強化されたモデルを提案します。マルチモーダルな大規模言語モデル。

(2) この作業は、画像説明、視覚的質問応答、指示表現の理解などを含む 17 の視覚言語タスク ベンチマーク セットで評価され、そのうち 13 の評価セットが現在の最高のパフォーマンスに達しました。

(3) この研究では、画像レベルの理解タスクと領域レベルのローカリゼーションタスクの間の内部矛盾を解決するためのセグメント化された命令の微調整戦略を提案し、タスク間の 2 つの相互改善を実装します

(4) この研究では、画像レベルの理解と地域レベルの位置決めタスクをうまく統合して、視覚的なシーンを複数のレベルで包括的に理解することができ、この包括的なアプローチは将来的にも使用できます。具現化されたインテリジェントなシナリオに適用されることで、ロボットが現在の環境をより適切かつ包括的に識別して理解し、効果的な意思決定を行えるようになります。

以上が13 の視覚言語タスクを完了してください!ハルビン工業大学、性能が5%向上したマルチモーダル大型モデル「Jiutian」をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング Apr 07, 2025 pm 08:06 PM

VueとElement-UIカスケードドロップダウンボックスv-Modelバインディング共通ピットポイント:V-Modelは、文字列ではなく、カスケード選択ボックスの各レベルで選択した値を表す配列をバインドします。 SelectedOptionsの初期値は、nullまたは未定義ではなく、空の配列でなければなりません。データの動的読み込みには、非同期でデータの更新を処理するために非同期プログラミングスキルを使用する必要があります。膨大なデータセットの場合、仮想スクロールや怠zyな読み込みなどのパフォーマンス最適化手法を考慮する必要があります。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

See all articles