300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文-AI-php.cn

ホームページ

テクノロジー周辺機器

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

PHPz

Jun 29, 2024 am 06:14 AM

プロジェクト

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の筆頭著者Shuai Xinchengは現在、復旦大学のFVL研究室で博士号取得を目指して勉強しており、上海交通大学を卒業しました。学士号。彼の主な研究対象は、画像とビデオの編集とマルチモーダル学習です。

はじめに

この記事では、一般的な編集タスクを解決するための統一フレームワークを提案します。最近、復丹大学と南洋理工大学の FVL 研究所の研究者らは、ヴィンセントグラフ大規模モデルに基づくマルチモーダルガイド付き画像編集アルゴリズムを要約し、レビューしました。このレビューは 300 以上の関連研究をカバーしており、調査された最新モデルは今年 6 月時点のものです。このレビューでは、制御条件 (自然言語、画像、ユーザーインターフェイス) と編集タスク (オブジェクト/属性操作、空間変換、修復、スタイル転送、画像変換、主題/属性のカスタマイズ) の議論を、より斬新で包括的な議論に拡張します。より一般的な観点から編集方法を説明します。さらに、このレビューでは、編集プロセスをさまざまなアルゴリズムファミリーの組み合わせとして表現する統一フレームワークを提案し、包括的な定性的および定量的実験を通じて、さまざまな組み合わせの特性と適応シナリオを示します。このフレームワークは、ユーザーのさまざまなニーズを満たすためのフレンドリーな設計スペースを提供し、研究者が新しいアルゴリズムを開発するための一定の参考資料を提供します。

概要

画像編集は、ユーザーの特定のニーズに従って、特定の合成画像または実際の画像を編集するように設計されています。人工知能生成コンテンツ (AIGC) の分野における有望かつ挑戦的な分野として、画像編集が広く研究されています。最近、大規模な画像から赤外線への (T2I) 拡散モデルが画像編集技術の開発を推進しています。これらのモデルはテキストプロンプトに基づいて画像を生成し、驚くべき生成機能を実証し、画像編集の一般的なツールになります。 T2I ベースの画像編集方法により、編集パフォーマンスが大幅に向上し、マルチモーダル条件ガイダンスを使用してコンテンツを変更するためのインターフェイスがユーザーに提供されます。 T2I 拡散モデルに基づいたマルチモーダルガイド付き画像編集技術の包括的なレビューを提供します。まず、より一般的な観点から画像編集タスクの範囲を定義し、さまざまな制御信号と編集シナリオを詳細に説明します。次に、編集プロセスを形式化し、2 つのアルゴリズムファミリの組み合わせとして表す統一フレームワークを提案します。このフレームワークは、特定の目標を達成するための設計スペースをユーザーに提供します。次に、フレームワーク内の各コンポーネントを詳細に分析し、さまざまな組み合わせの特性と適用可能なシナリオを研究しました。トレーニングベースの方法はソースイメージをターゲットイメージにマッピングする方法を直接学習するため、これらの方法を個別に説明し、さまざまなシナリオの下でソースイメージ挿入スキームを紹介します。さらに、フレーム間の不一致の解決に焦点を当てて、ビデオ編集における 2D 技術の適用をレビューします。最後に、この分野における未解決の課題についても議論し、将来の研究の方向性を提案します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

論文タイトル: テキストから画像への拡散モデルによるマルチモーダルガイド付き画像編集の調査
出版単位: 復旦大学 FVL 研究室、南洋理工大学
論文アドレス: https://arxiv 。 org/abs/2406.14555
プロジェクトアドレス: https://github.com/xinchengshuai/Awesome-Image-Editing

1．研究動機

1.1. 実生活では、制御可能な高品質のインテリジェントな画像編集ツールに対する需要が高まっているため、この方向での手法と技術的特性を体系的に要約して比較する必要があります。

1.2 では、現在の編集アルゴリズムと関連するレビューでは、編集シナリオが、編集に関係のない画像内の低レベルの意味情報のほとんどを保持することに制限されているため、編集タスクの範囲を拡大する必要があります。より一般的なタスクの観点から編集について説明します。

1.3、ニーズとシナリオが多様であるため、編集プロセスを統一フレームワークに形式化し、さまざまな編集目標に適応するデザインスペースをユーザーに提供する必要があります。

2．レビューのハイライトは現在の編集レビューとどのように異なりますか?

2.1 編集タスクに関する定義と議論の範囲。既存のアルゴリズムや以前の編集レビューと比較して、この論文では画像編集タスクをより広範に定義します。具体的には、この記事では、編集タスクをコンテンツ対応シーングループとコンテンツ非対応シーングループに分けます。コンテンツ認識グループのシーンは、以前の文献で説明されている主なタスクであり、それらの共通点は、無関係な領域のピクセルコンテンツや画像構造の編集など、画像内のいくつかの低レベルの意味論的特徴を保持することです。さらに、当社は、コンテンツフリーシナリオグループにカスタマイズタスクを組み込む先駆者となり、通常の編集シナリオへの追加として、高レベルのセマンティクス (被験者 ID 情報やその他のきめ細かい属性など) を保持するこのタイプのタスクを使用しました。補充します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{。編集シナリオは多様であるため、既存のアルゴリズムではすべてのニーズを十分に満たすことはできません。したがって、既存の編集プロセスを、2 つのアルゴリズムファミリの組み合わせとして表現される統一フレームワークに形式化します。さらに、定性的および定量的な実験を通じてさまざまな組み合わせの特性と適応シナリオも分析し、さまざまな編集目標に適応するための優れた設計スペースをユーザーに提供しました。同時に、このフレームワークは、より優れたパフォーマンスのアルゴリズムを設計するためのより良い参考資料も研究者に提供します。}

2.3 議論の包括性。私たちは 300 以上の関連論文を調査し、さまざまなシナリオにおけるさまざまなモードの制御信号の応用を体系的かつ包括的に説明しました。トレーニングベースの編集方法については、この記事ではさまざまなシナリオで T2I モデルにソースイメージを挿入するための戦略も提供します。さらに、ビデオ分野における画像編集技術の応用についても説明し、読者がさまざまな分野の編集アルゴリズム間のつながりをすぐに理解できるようにしました。

3．一般的な編集アルゴリズムの統合フレームワーク

️図 2. 一般的な編集アルゴリズムの統合フレームワーク

フレームワークには、反転アルゴリズム
と編集アルゴリズム

の 2 つのアルゴリズムファミリが含まれています。

3.1 反転アルゴリズム。反転アルゴリズム
は、ソース画像セット

を特定の特徴またはパラメーター空間にエンコードし、対応する表現

(反転手がかり) を取得し、対応するソーステキスト記述 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

をソース画像の識別子として使用します。チューニングベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

とフォワードベース

の2種類の反転アルゴリズムが含まれています。これは次のように形式化できます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

チューニングベースの反転

ソース画像セットは、元の拡散トレーニングプロセスを通じて拡散モデルの生成分布に埋め込まれます。形式化プロセスは次のとおりです。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文は導入された学習可能なパラメーター、および

です。

Forward-based inversion
は、拡散モデルの逆プロセス(

)において、特定の順パス(

)のノイズを復元するために使用されます。正式化プロセスは次のとおりです: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、

はメソッドに導入されたパラメータであり、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

を最小化するために使用されます。 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

3.2.アルゴリズムの編集。編集アルゴリズム

は、

とマルチモーダルガイダンスセット 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

に基づいて、最終的な編集結果 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

を生成します。アテンションベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

、ブレンディングベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

、スコアベース

、最適化ベース

を含む編集アルゴリズム。これは次のように形式化できます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

特に、逆プロセスの各ステップで、

は次の操作を実行します: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、

の操作は拡散モデルのサンプリングにおける編集アルゴリズムの介入を表します。プロセス 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

は、編集された画像

とソース画像コレクション 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

の間の一貫性を確保し、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

のガイダンス条件によって指定された視覚的な変換を反映するために使用されます。 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

具体的には、介入なしの編集プロセスを編集アルゴリズムの通常バージョンとして扱います

。これは次のように形式化されます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

アテンションベース編集の形式的プロセス 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

: ブレンドベース編集の形式的プロセス

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

スコアベース編集の形式的プロセス

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

最適化ベースの編集

の形式化プロセス:

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

3.3 トレーニングベースの編集方法。トレーニング不要の方法とは異なり、トレーニングベースのアルゴリズムは、ソース画像セットとタスク固有のデータセット内の編集画像のマッピングを直接学習します。このタイプのアルゴリズムは、追加の導入パラメーターを通じてソースイメージを生成分布にエンコードする、チューニングベースの反転の拡張として見ることができます。このタイプのアルゴリズムで最も重要なことは、ソース画像を T2I モデルに挿入する方法です。以下に、さまざまな編集シナリオの挿入スキームを示します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

コンテンツタスクインジェクションスキーム：

intectent intectence-content emscion solution：

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{図3.コンテンツのないタスクの注入スキーム}

4.マルチモーダル編集タスクにおける統一フレームワークの適用

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{この記事では、定性的な実験を通じてマルチモーダル編集タスクにおける各組み合わせの適用を説明します:}

図 4. アテンションベースの編集アプリケーションについて

のアルゴリズムの組み合わせアルゴリズムの組み合わせの応用

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{図 6. スコアベースの編集のためのアルゴリズムの組み合わせの適用原文をご参照ください。詳細な分析のために。 5．テキストガイド付き編集シナリオにおけるさまざまな組み合わせの比較

この記事では、一般的なテキストガイド付き編集タスクについて、さまざまな組み合わせに適した編集シナリオを説明するために、多くの挑戦的な定性実験を設計しました。さらに、この論文では、さまざまなシナリオでさまざまな組み合わせでの高度なアルゴリズムのパフォーマンスを定量的に説明するために、高品質で困難なデータセットも収集します。コンテンツを意識したタスクでは、主にオブジェクトの操作 (追加/削除/置換)、属性の変更、スタイルの移行を考慮します。特に、次のような挑戦的な実験設定を検討します。 1. 多目的編集。 2. 画像の意味論的なレイアウトに大きな影響を与えるユースケース。また、これらの複雑なシーンの高品質画像を収集し、さまざまな組み合わせで最先端のアルゴリズムを包括的に定量的に比較します。図 8. Content-AWARE ミッションの各組み合わせの定性的比較左から右に、分析結果とその他の実験結果を示します。元の論文を参照してください。

コンテンツのないタスクについては、主に主題主導のカスタマイズされたタスクを考慮します。また、背景の変更、オブジェクトとの対話、動作の変更、スタイルの変更など、さまざまなシナリオを考慮します。また、多数のテキストガイダンステンプレートを定義し、各メソッドの全体的なパフォーマンスの定量的分析を実施しました。
図 9 では、コンテンツフリーミッションでの各組み合わせの定性的比較を示しています。左から右に、分析結果とその他の実験結果を示します。元の論文を参照してください。 6.今後の研究の方向性
さらに、この記事では、将来の研究の方向性についての分析も提供します。ここでは、コンテンツを意識したタスクとコンテンツを持たないタスクが直面する課題を例に挙げます。

6.1. コンテンツを意識したタスクの課題。コンテンツを意識した編集タスクという課題に対して、既存の方法では複数の編集シナリオと制御信号を同時に処理することができません。この制限により、アプリケーションは異なるタスク間で適切なバックエンドアルゴリズムを切り替える必要があります。さらに、一部の高度な方法はユーザーフレンドリーではありません。最適な結果を得るためにユーザーが主要なパラメータを調整する必要がある方法もあれば、ソースとターゲットのヒントや補助マスクなどの面倒な入力が必要な方法もあります。

6.2.コンテンツフリーのタスクチャレンジ。コンテンツのない編集タスクの場合、既存の方法ではテスト中に調整プロセスに時間がかかり、オーバーフィッティングの問題が発生します。一部の研究では、少数のパラメーターを最適化したり、モデルをゼロからトレーニングしたりすることで、この問題を軽減することを目指しています。ただし、主題を個別化する詳細が失われたり、一般化能力が不十分であることがよくあります。さらに、現在の方法は、少数の画像から抽象的な概念を抽出するという点でも不十分であり、目的の概念を他の視覚要素から完全に分離することはできません。

研究の方向性について詳しく知りたい場合は、元の論文を確認してください。}

以上が300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1664

CakePHP チュートリアル

1423

Laravel チュートリアル

1321

PHP チュートリアル

1269

C# チュートリアル

1249

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック