最近、Yan Shuicheng 教授率いる、Kunlun Wanwei 2050 Global Research Institute、シンガポール国立大学、シンガポール南洋工科大学のチームが共同で をリリースし、オープン ソースVitron ユニバーサル ピクセル レベル ビジュアル マルチモーダル大規模言語モデル。
これは、視覚的な理解から視覚的な生成まで、低レベルから高レベルまでの一連の視覚タスクをサポートし、問題を解決する高耐久の一般的なビジュアル マルチモーダル モデルです。 / 大規模言語モデル業界の長年の問題に対して、静止画像と動的なビデオの理解、生成、セグメンテーション、編集を包括的に統合するピクセルレベルのソリューションを提供します。コンテンツ 一般ビジョン マルチモーダル大規模モデルは、次世代一般ビジョン大規模モデルの究極の形の基礎を築き、一般 人工知能(##AGI)への一歩を示します。 )また大きな一歩。
Vitron は、統合されたピクセル レベルのビジュアル マルチモーダル大規模言語モデルとして、低レベルから高レベルまでのビジュアル タスクの包括的なサポートを実現します。#,複雑な視覚的タスクを処理でき、および画像とビデオのコンテンツを理解して生成し、強力な視覚的理解とタスク実行機能を提供します。 同時に、Vitron はユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を可能にし、より統一された視覚的なマルチモーダル ユニバーサル モデルに向けた大きな可能性を実証します。
Vitron 関連の論文、コード、デモ はすべて公開されています これらは包括的な技術革新です。 , 人間とコンピューターの相互作用と応用可能性において実証された独自の利点と可能性は、マルチモーダル大規模モデルの開発を促進するだけでなく、将来の視覚的大規模モデル研究に新たな方向性を提供します。 Kunlun Wanwei2050
Global Research Institute は常に未来の世界のために 優れた企業を構築することに尽力してきました。研究機関、科学コミュニティとともにクロス" 特異点"、探求未知の世界,より良い未来を創造します。 以前、Kunlun Wanwei2050 Global Research Institute は、デジタル エージェントの研究開発ツールキットをリリースし、オープンソース化しました #AgentStudio、今後も、当研究所は人工知能技術的ブレークスルーを推進し、中国の人工知能生態系構築#に貢献していきます。 #### #貢献する。 ビジュアルラージ言語モデル (LLM) の現在の開発は、満足のいく進歩を遂げています。コミュニティでは、より汎用的で強力なマルチモーダル大規模モデル (MLLM) を構築することが汎用人工知能 (AGI) を実現する唯一の方法であるとの考えが高まっています。ただし、マルチモーダルな一般モデル (ジェネラリスト) に移行するプロセスには、依然として重要な課題がいくつかあります。たとえば、作業の大部分は、ピクセルレベルのきめ細かい視覚的理解を達成できていないか、画像とビデオの統一されたサポートが不足しています。あるいは、さまざまな視覚的タスクのサポートが不十分であり、汎用的な大型モデルには程遠いです。 このギャップを埋めるために、最近、Kunlun Worldwide 2050 Global Research Institute、シンガポール国立大学、シンガポール南洋工科大学のチームが共同で、オープンソースの Vitron ユニバーサル ピクセル レベル ビジュアル マルチモーダル大規模言語モデル。 Vitron は、静止画像と動的なビデオ コンテンツの包括的な理解、生成、セグメンテーション、編集を含む、低レベルから高レベルまで、視覚的な理解から視覚的な生成までの一連の視覚タスクをサポートします。
Vitron では、4 つの主要なビジョン関連タスクの機能サポートについて包括的に説明します。そしてその主な利点。 Vitron はまた、ユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を実現します。このプロジェクトは、より統合されたビジョン マルチモーダル一般モデルの大きな可能性を実証し、次世代の一般ビジョン大型モデルの究極の形の基礎を築きます。Vitron 関連の論文、コード、デモはすべて公開されました。
論文タイトル: Vitron: 理解、生成、セグメント化、編集のための統合ピクセルレベル ビジョン LLM
プロジェクトのホームページとデモ: https://vitron-llm.github.io /
紙のリンク: https://is.gd/aGu0VVオープンソース コード: https://github.com/SkyworkAI/Vitron近年、大規模言語モデル (LLM) は前例のない強力な機能を実証しており、AGI への技術的ルートとして徐々に検証されています。マルチモーダル大規模言語モデル (MLLM) は多くのコミュニティで急速に開発されており、視覚認識を実行できるモジュールを導入することにより、強力で画像理解に優れた多くの MLLM が MLLM に拡張されています。 .BLIP-2、LLaVA、MiniGPT-4など。同時に、VideoChat、Video-LLaMA、Video-LLaVA など、ビデオの理解に焦点を当てた MLLM も立ち上げられています。
その後、研究者は主に MLLM の機能を 2 次元からさらに拡張しようとしました。一方で、研究者たちは、GLaMM などの視覚領域位置決め (地域接地) 機能を実現するために、画像についての大まかなインスタンス レベルの理解からピクセル レベルの詳細な理解に移行して、MLLM の視覚についての理解を深めようとしています。 、PixelLM、NExT-Chat、MiniGPT-v2など。一方、研究者たちは、MLLM がサポートできる視覚機能を拡張しようとしています。 MLLM が入力視覚信号を理解するだけでなく、出力視覚コンテンツの生成をどのようにサポートするかを研究する研究も行われ始めています。例えば、GILL や Emu などの MLLM は画像コンテンツを柔軟に生成でき、GPT4Video や NExT-GPT はビデオ生成を実現します。
現在、人工知能コミュニティは、ビジュアル MLLM の将来の傾向が高度に統合され、より強力な機能の方向に必然的に発展するだろうというコンセンサスに徐々に達しています。ただし、コミュニティによって多数の MLLM が開発されているにもかかわらず、明らかなギャップが依然として存在します。
上の表は、既存のビジュアル MLLM の機能を簡単に要約したものです (一部のモデルが代表的に含まれているだけであり、範囲は不完全です)。これらのギャップを埋めるために、チームは一般的なピクセルレベルのビジュアルMLLMであるVitronを提案しています。
02. Vitron システム アーキテクチャ : 3 つの主要モジュール
Vitron 全体のフレームワーク下に示された。 Vitron は、既存の関連する MLLM と同様のアーキテクチャを採用しています。これには、1) フロントエンドのビジュアルおよび言語エンコーディング モジュール、2) 中央の LLM 理解およびテキスト生成モジュール、3) バックエンドのユーザー応答およびビジュアル コントロールのモジュール呼び出しの 3 つの主要な部分が含まれます。モジュール。
#03.Vitronモデル トレーニングの 3 段階
上記のアーキテクチャに基づいて、Vitron は強力な視覚的理解とタスク実行機能を提供するためにトレーニングおよび微調整されています。モデルのトレーニングには主に 3 つの異なる段階があります。1) ユーザー応答出力、ユーザーの入力に直接応答します。
2) 実行する機能またはタスクを示すモジュール名。
3) コマンドを呼び出して、タスク モジュールのメタ命令をトリガーします。
4) バックエンド モジュールがこの情報を必要とする、ビデオ トラッキングやビジュアル編集などの特定のタスクに必要な詳細なビジュアル機能を指定する領域 (オプションの出力)。領域の場合、LLM のピクセルレベルの理解に基づいて、座標によって記述された境界ボックスが出力されます。
04評価実験研究者は、Vitron に基づいた 22 の一般的なベンチマーク データ セットと 12 の画像/ビデオ ビジョン タスクについて広範な実験評価を実施しました。 Vitron は、4 つの主要なビジュアル タスク グループ (セグメンテーション、理解、コンテンツ生成および編集) で強力な機能を発揮すると同時に、柔軟な人間とコンピューターの対話機能を備えています。以下に代表的な定性的な比較結果を示します。
画像参照画像セグメンテーションの結果
画像参照表現理解の結果。
ビデオ QA の結果。
画像編集結果
さらに詳しい実験内容や詳細については、こちらのステップをご覧ください。論文。
05 今後の方向性 全体として、この研究は、の大きな可能性を示しています。統合された視覚マルチモーダル一般大型モデルの開発は、次世代視覚大型モデルの研究に新しい形を築き、この方向への第一歩を踏み出しました。チームが提案した Vitron システムは強力な一般的な機能を示していますが、それでも独自の制限があります。以下の研究者は、将来さらに研究される可能性のあるいくつかの方向性を列挙しています。
Vitron システムでは、引き続きセミジョイント、セミエージェントのアプローチを使用して外部ツールを呼び出します。この呼び出しベースの方法は、潜在的なモジュールの拡張と置き換えを容易にしますが、このパイプライン構造のバックエンド モジュールがフロントエンド モジュールと LLM コア モジュールの共同学習に参加しないことも意味します。この制限はシステム全体の学習には役立たないため、さまざまな視覚タスクのパフォーマンスの上限がバックエンド モジュールによって制限されることになります。将来の作業では、さまざまなビジョン タスク モジュールを 1 つのユニットに統合する必要があります。単一の生成パラダイムを通じて生成および編集機能をサポートしながら、画像とビデオの統一された理解と出力を実現することは、依然として課題です。現在、有望なアプローチは、モジュール性永続的なトークン化を組み合わせて、さまざまな入出力およびさまざまなタスクにおけるシステムの統合を向上させることです。
単一の視覚タスク (安定拡散や SEEM など) に焦点を当てた以前のモデルとは異なり、Vitron は、 LLM とユーザー間の詳細なインタラクションは、業界における OpenAI の DALL-E シリーズ、Midjourney などに似ています。最適なユーザー対話性を実現することが、この作業の中心的な目標の 1 つです。 Vitron は、既存の言語ベースの LLM を適切な命令調整と組み合わせて活用し、一定レベルの対話性を実現します。たとえば、システムは、ユーザー入力がバックエンド モジュールの条件と正確に一致する必要がなく、ユーザーが入力する予期されるメッセージに柔軟に応答し、対応する視覚的な操作結果を生成できます。ただし、この作業にはインタラクティブ性の向上という点でまだ改善の余地が多く残されています。たとえば、クローズドソースの Midjourney システムからインスピレーションを得て、LLM が各ステップでどのような決定を下しても、システムはユーザーに積極的にフィードバックを提供して、そのアクションと決定がユーザーの意図と一致していることを確認する必要があります。
モーダル機能
現在、Vitron は 7B Vicuna モデルを統合しており、言語、画像、ビデオを理解する機能がある可能性があります。適用する。将来の探求の方向性としては、ビジョンをより徹底的かつ包括的に理解するためにモデルの規模を拡大するなど、包括的なエンドツーエンドのシステムを開発することが考えられます。さらに、LLM が画像とビデオのモダリティの理解を完全に統一できるようにするための努力が必要です。
以上が厳水成氏のリーダーシップの下、崑崙万威2050グローバル研究所はNUSおよびNTUと共同でVitronをリリースし、一般的なビジュアルマルチモーダル大型モデルの究極の形式を確立しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。